訂閱
糾錯(cuò)
加入自媒體

如何使用TCGAbiolinks進(jìn)行數(shù)據(jù)預(yù)處理?

2021-01-07 09:31
科研菌
關(guān)注

這里將生成一個(gè)array-array intensity correlation(AAIC)相關(guān)性熱圖,如下:

TCGAanalyze_Preprocessing()中的參數(shù):

參數(shù)用法object來自TCGAprepare的結(jié)果cor.cut設(shè)置閾值,根據(jù)樣本中各個(gè)樣本之間的spearman相關(guān)系數(shù)進(jìn)行過濾。默認(rèn)為0filename設(shè)置生成圖片文件的名稱,默認(rèn)為PreprocessingOutput.pngwidth生成圖片的寬度?? height生成圖片的高度datatype描述RangedSummarizedExperiment 數(shù)據(jù)類型的字符串

第五步:TCGAtumor_purity()篩選腫瘤純度大于60%的腫瘤barcodes

# TCGAtumor_purity(barcodes, estimate, absolute, lump, ihc, cpe),使用來自5種方法的5個(gè)估計(jì)值作為閾值對(duì)TCGA樣本進(jìn)行過濾,這5個(gè)值是estimate, absolute, lump, ihc, cpe,這里設(shè)置cpe=0.6(cpe是派生的共識(shí)度量,是將所有方法的標(biāo)準(zhǔn)含量歸一化后的均值純度水平,以使它們具有相等的均值和標(biāo)準(zhǔn)差)

#篩選腫瘤純度大于等于60%的樣本數(shù)據(jù)

purityDATA <- TCGAtumor_purity(colnames(dataPrep1), 0, 0, 0, 0, 0.6)

# filtered 為被過濾的數(shù)據(jù), pure_barcodes是我們要的腫瘤數(shù)據(jù)

Purity.LIHC<-purityDATA$pure_barcodes

normal.LIHC<-purityDATA$filtered

filtered 為被過濾的數(shù)據(jù)(為正常組織的數(shù)據(jù)barcodes), pure_barcodes是我們要的腫瘤樣本barcodes。

第六步:將腫瘤表達(dá)矩陣與正常組織表達(dá)矩陣合并,進(jìn)行基因注釋

#獲取腫瘤純度大于60%的340個(gè)腫瘤組織樣本+50個(gè)正常組織樣本,共計(jì)390個(gè)樣本

puried_data <-dataPrep2[,c(Purity.LIHC,normal.LIHC)]

第七步:進(jìn)行表達(dá)矩陣基因注釋

;蜃⑨,需要加載“SummarizedExperiment”包,“SummarizedExperiment container”每個(gè)由數(shù)字或其他模式的類似矩陣的對(duì)象表示。行通常表示感興趣的基因組范圍和列代表樣品。

#if (!requireNamespace("BiocManager", quietly = TRUE))

install.packages("BiocManager")

#BiocManager::install("SummarizedExperiment")    #沒有的需要執(zhí)行下載代碼

library("SummarizedExperiment")

rowData(dataPrep1)   #傳入數(shù)據(jù)dataPrep1必須為SummarizedExperiment對(duì)象

# DataFrame with 56512 rows and 3 columns

#                 ensembl_gene_id external_gene_name original_ensembl_gene_id

#                     <character>        <character>              <character>

# ENSG00000000003 ENSG00000000003             TSPAN6       ENSG00000000003.13

# ENSG00000000005 ENSG00000000005               TNMD        ENSG00000000005.5

# ENSG00000000419 ENSG00000000419               DPM1       ENSG00000000419.11

# ENSG00000000457 ENSG00000000457              SCYL3       ENSG00000000457.12

#將結(jié)果寫入文件“puried.LIHC.cancer.csv”

rownames(puried_data)<-rowData(dataPrep1)$external_gene_name

write.csv(puried_data,file = "puried.LIHC.csv",quote = FALSE)

第八步:進(jìn)行表達(dá)矩陣標(biāo)準(zhǔn)化和過濾,得到用于差異分析的表達(dá)矩陣

`TCGAanalyze_Normalization()`使用EDASeq軟件包標(biāo)準(zhǔn)化mRNA轉(zhuǎn)錄本和miRNA。

#TCGAanalyze_Normalization()執(zhí)行EDASeq包中的如下功能:

1. EDASeq::newSeqExpressionSet

2. EDASeq::withinLaneNormalization

3. EDASeq::betweenLaneNormalization

4. EDASeq::counts

dataNorm <- TCGAanalyze_Normalization(tabDF = puried_data,

geneInfo = geneInfo,

method = "gcContent")

TCGAanalyze_Normalization中的參數(shù):

參數(shù)用法tabDFRNAseq表達(dá)矩陣,行代表基因,列代表樣本geneInfo關(guān)于geneLength和gcContent的20531個(gè)基因的矩陣,“geneInfoHT”和“geneInfo”可選。method選擇標(biāo)準(zhǔn)化的方法,基于’gcContent’ 或 ’geneLength’的標(biāo)準(zhǔn)化方法可選

#將標(biāo)準(zhǔn)化后的數(shù)據(jù)再過濾,去除掉表達(dá)量較低(count較低)的基因,得到最終的數(shù)據(jù)

dataFilt <- TCGAanalyze_Filtering(tabDF = dataNorm,

method = "quantile",

qnt.cut =  0.25)

str(dataFilt)

#num [1:13083, 1:340] 274 2432 60347 1012 1947 ...

#- attr(*, "dimnames")=List of 2

# ..$ : chr [1:13083] "A1BG" "A1CF" "A2M" "A4GALT" ...

# ..$ : chr [1:390] "TCGA-DD-AAD5-01A-11R-A41C-07" "TCGA-DD-A4NO-01A-11R-A28V-07" "TCGA-EP-A2KA-01A-11R-A180-07" "TCGA-DD-AACP-01A-11R-A41C-07" ...

TCGAanalyze_Filtering()中的參數(shù):

參數(shù)用法tabDF數(shù)據(jù)框或者矩陣,行代表基因,列代表來自TCGA的樣本method用于過濾較低count數(shù)的基因的方法,有’quantile’, ’varFilter’, ’filter1’, ’filter2’qnt.cut選擇均值作為過濾的閾值

最后將過濾后的數(shù)據(jù)寫入文件“TCGA_LIHC_final.csv”,就得到我們用于后續(xù)差異分析的表達(dá)文件:

write.csv(dataFilt,file = "TCGA_LIHC_final.csv",quote = FALSE)

#保留的是390個(gè)樣本(前340腫瘤,后50正常組織)

今天的數(shù)據(jù)預(yù)處理就講到這里,接下來我們將分享:數(shù)據(jù)分析(差異表達(dá)分析、富集分析和聚類分析等)。如果你喜歡的話,就加入我們一起挖數(shù)據(jù)吧~~

<上一頁  1  2  3  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)