![]()
生信分析和數據挖掘,無論是GENT2、GEPIA差異表達平臺,還是TISIDB、TIMER免疫浸潤平臺,抑或是K-M Plotter、PrognoScan生存分析平臺,都無需R編寫代碼,容易上手。在線平臺的數據分析雖然簡單,但體現了生信分析的思路,適合小白入門!高段位的生信分析,R語言是基礎。我們以GEO數據處理展開進階教程的分享。
在一系列的生信分析和數據挖掘過程中,差異分析往往是第一步,|FoldChange| >2,p<0.05是我們做分析想要的結果。即使是用R 處理GEO、TCGA和CCLE等平臺的數據做分析,甚至是用R 處理自測芯片或測序的數據做分析,沒有差異也是枉然。
![]()
其實,很多數據庫都可以做差異分析,只是側重點不同。 我們借助AQP9與腎透明細胞癌的關系,用在線工具和R兩種方式展示差異表達。
![]()
GEPIA的數據源于GTEx和TCGA數據庫RNA_Seq的數據,以箱線圖展示。根據分析結果,AQP9在腎透明細胞癌中的表達升高,但并不顯著,這可能是由于其篩選標準是 |Log2FC| >1, p <0.01(而不是0.05)造成的。
![]()
UALCAN的數據源于TCGA數據庫RNA_Seq的數據,以箱線圖展示,p value一般會給出具體數值,配色也很驚艷。UALCAN中的數據是處理好的,原始數據可下載。
![]()
CAMOIP的數據主要來自TCGA,可用于分析ICI-Treated和TCGA臨床隊列的表達數據。通過該數據庫,可以探索TCGA和ICI-Treated中基因表達的差異。此處,我們采用TCGA Cohort的數據展示KIRC患者中AQP9與相關基因的表達情況。
![]()
當然,還有其他的在線分析平臺,用于分析AQP9在腎透明細胞癌KIRC的表達差異,如GENT2、KM-Plotter、TIMER、CCLE等。這部分內容,我們不再做更多介紹,本次以R下載和處理展示GEO數據為主。
在論文Fig1中,作者通過TCGA、GEO和HPA數據庫的在線數據,從轉錄水平和蛋白水平展示AQP9在腎透明細胞癌和癌旁組織中的表達差異。我們在分析腎透明細胞癌時,可以選擇同樣的數據集;在分析其他腫瘤類型時,可以選擇類似的展示方式。
![]()
我們以GSE15111的數據為例復現,從數據下載、數據分組,到差異可視化展示。
write.table(allLimma,file="GSE15111_limmaTab.txt",sep="\t",quote=F,col.names=F)上述為常規操作,下載數據,數據標準化,分組和差異分析。接下來繪制火山圖和熱圖。
labs(title = 'Volcano', x = '-Log10(adj.P.Val)', y = 'LogFC') ![]()
fontsize = 7) ![]()
最后,我們需要提取AQP9在腫瘤和癌旁的分組及表達信息,然后用ggplot2()繪圖即可,繪圖的類型包括箱線圖、小提琴圖和散點圖等,展示方式是可以自己選擇的。
theme_bw() ![]()
geom_violin() ![]()
geom_dotplot(binaxis='y', stackdir='center') ![]()
上述繪圖再加上p值或者優化即可用于文章發表。一起學習,共同成長,遇見更好的自己!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.