123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 大數(shù)據(jù) > 正文

如何使用TCGAbiolinks進(jìn)行數(shù)據(jù)預(yù)處理？

2021-01-07 09:31

這里將生成一個(gè)array－array intensity correlation（AAIC）相關(guān)性熱圖，如下：

TCGAanalyze＿Preprocessing（）中的參數(shù)：

參數(shù)用法object來自TCGAprepare的結(jié)果cor．cut設(shè)置閾值，根據(jù)樣本中各個(gè)樣本之間的spearman相關(guān)系數(shù)進(jìn)行過濾。默認(rèn)為0filename設(shè)置生成圖片文件的名稱，默認(rèn)為PreprocessingOutput．pngwidth生成圖片的寬度?? height生成圖片的高度datatype描述RangedSummarizedExperiment 數(shù)據(jù)類型的字符串

第五步：TCGAtumor＿purity（）篩選腫瘤純度大于60％的腫瘤barcodes

＃ TCGAtumor＿purity（barcodes， estimate， absolute， lump， ihc， cpe），使用來自5種方法的5個(gè)估計(jì)值作為閾值對(duì)TCGA樣本進(jìn)行過濾，這5個(gè)值是estimate， absolute， lump， ihc， cpe，這里設(shè)置cpe＝0．6（cpe是派生的共識(shí)度量，是將所有方法的標(biāo)準(zhǔn)含量歸一化后的均值純度水平，以使它們具有相等的均值和標(biāo)準(zhǔn)差）

＃篩選腫瘤純度大于等于60％的樣本數(shù)據(jù)

purityDATA ＜－ TCGAtumor＿purity（colnames（dataPrep1）， 0， 0， 0， 0， 0．6）

＃ filtered 為被過濾的數(shù)據(jù)， pure＿barcodes是我們要的腫瘤數(shù)據(jù)

Purity．LIHC＜－purityDATA＄pure＿barcodes

normal．LIHC＜－purityDATA＄filtered

filtered 為被過濾的數(shù)據(jù)（為正常組織的數(shù)據(jù)barcodes）， pure＿barcodes是我們要的腫瘤樣本barcodes。

第六步：將腫瘤表達(dá)矩陣與正常組織表達(dá)矩陣合并，進(jìn)行基因注釋

＃獲取腫瘤純度大于60％的340個(gè)腫瘤組織樣本＋50個(gè)正常組織樣本，共計(jì)390個(gè)樣本

puried＿data ＜－dataPrep2［，c（Purity．LIHC，normal．LIHC）］

第七步：進(jìn)行表達(dá)矩陣基因注釋

�；蜃⑨�，需要加載“SummarizedExperiment”包，“SummarizedExperiment container”每個(gè)由數(shù)字或其他模式的類似矩陣的對(duì)象表示。行通常表示感興趣的基因組范圍和列代表樣品。

＃if （！requireNamespace（＂BiocManager＂， quietly ＝ TRUE））

install．packages（＂BiocManager＂）

＃BiocManager：：install（＂SummarizedExperiment＂）＃沒有的需要執(zhí)行下載代碼

library（＂SummarizedExperiment＂）

rowData（dataPrep1）＃傳入數(shù)據(jù)dataPrep1必須為SummarizedExperiment對(duì)象

＃ DataFrame with 56512 rows and 3 columns

＃ ensembl＿gene＿id external＿gene＿name original＿ensembl＿gene＿id

＃＜character＞＜character＞＜character＞

＃ ENSG00000000003 ENSG00000000003 TSPAN6 ENSG00000000003．13

＃ ENSG00000000005 ENSG00000000005 TNMD ENSG00000000005．5

＃ ENSG00000000419 ENSG00000000419 DPM1 ENSG00000000419．11

＃ ENSG00000000457 ENSG00000000457 SCYL3 ENSG00000000457．12

＃將結(jié)果寫入文件“puried．LIHC．cancer．csv”

rownames（puried＿data）＜－rowData（dataPrep1）＄external＿gene＿name

write．csv（puried＿data，file ＝＂puried．LIHC．csv＂，quote ＝ FALSE）

第八步：進(jìn)行表達(dá)矩陣標(biāo)準(zhǔn)化和過濾，得到用于差異分析的表達(dá)矩陣

｀TCGAanalyze＿Normalization（）｀使用EDASeq軟件包標(biāo)準(zhǔn)化mRNA轉(zhuǎn)錄本和miRNA。

＃TCGAanalyze＿Normalization（）執(zhí)行EDASeq包中的如下功能：

1． EDASeq：：newSeqExpressionSet

2． EDASeq：：withinLaneNormalization

3． EDASeq：：betweenLaneNormalization

4． EDASeq：：counts

dataNorm ＜－ TCGAanalyze＿Normalization（tabDF ＝ puried＿data，

geneInfo ＝ geneInfo，

method ＝＂gcContent＂）

TCGAanalyze＿Normalization中的參數(shù)：

參數(shù)用法tabDFRNAseq表達(dá)矩陣，行代表基因，列代表樣本geneInfo關(guān)于geneLength和gcContent的20531個(gè)基因的矩陣，“geneInfoHT”和“geneInfo”可選。method選擇標(biāo)準(zhǔn)化的方法，基于’gcContent’ 或 ’geneLength’的標(biāo)準(zhǔn)化方法可選

＃將標(biāo)準(zhǔn)化后的數(shù)據(jù)再過濾，去除掉表達(dá)量較低（count較低）的基因，得到最終的數(shù)據(jù)

dataFilt ＜－ TCGAanalyze＿Filtering（tabDF ＝ dataNorm，

method ＝＂quantile＂，

qnt．cut ＝ 0．25）

str（dataFilt）

＃num ［1：13083， 1：340］ 274 2432 60347 1012 1947 ．．．

＃－ attr（＊，＂dimnames＂）＝List of 2

＃．．＄： chr ［1：13083］＂A1BG＂＂A1CF＂＂A2M＂＂A4GALT＂．．．

＃．．＄： chr ［1：390］＂TCGA－DD－AAD5－01A－11R－A41C－07＂＂TCGA－DD－A4NO－01A－11R－A28V－07＂＂TCGA－EP－A2KA－01A－11R－A180－07＂＂TCGA－DD－AACP－01A－11R－A41C－07＂．．．

TCGAanalyze＿Filtering（）中的參數(shù)：

參數(shù)用法tabDF數(shù)據(jù)框或者矩陣，行代表基因，列代表來自TCGA的樣本method用于過濾較低count數(shù)的基因的方法，有’quantile’， ’varFilter’， ’filter1’， ’filter2’qnt．cut選擇均值作為過濾的閾值

最后將過濾后的數(shù)據(jù)寫入文件“TCGA＿LIHC＿final．csv”，就得到我們用于后續(xù)差異分析的表達(dá)文件：

write．csv（dataFilt，file ＝＂TCGA＿LIHC＿final．csv＂，quote ＝ FALSE）

＃保留的是390個(gè)樣本（前340腫瘤，后50正常組織）

今天的數(shù)據(jù)預(yù)處理就講到這里，接下來我們將分享：數(shù)據(jù)分析（差異表達(dá)分析、富集分析和聚類分析等）。如果你喜歡的話，就加入我們一起挖數(shù)據(jù)吧～～

<上一頁 1 2 3

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<tr id="05azg"></tr>

<optgroup id="05azg"></optgroup>