本次訓練營面向的是《純生信公共數據庫挖掘”型論文復現與遷移》:不需要做任何濕實驗、不依賴自建隊列,只需從公開數據把研究做成一篇可發表的機制文章。我們將以公共 bulk轉錄組/單細胞數據 + GWAS/eQTL為核心,教你把“現象關聯”升級為“因果證據”,把“群體層面的信號”落到“細胞類型與細胞狀態”上,用一條清晰的證據鏈完成從選題到主圖的全流程。
課程最核心的亮點是孟德爾隨機化(MR)+ 單細胞(scRNA-seq)/細胞互作:先在公共轉錄組中篩出穩健候選,再通過eQTL–GWAS 的 MR建立“基因/暴露→疾病”的方向性因果關系,解決最頭疼的“只是相關、說服力不夠”的問題;隨后把 MR 鎖定的關鍵基因帶入單細胞數據,完成細胞類型定位、表達分布、軌跡變化與細胞通訊,讓結論從“一個基因可能有關”變成“哪個細胞在什么時候通過什么互作通路驅動表型”。
最終學員將獲得一套可復制到任何疾病方向的公共數據庫發文模板:MR 提因果、單細胞給機制、主圖可交付,讓沒有實驗條件也能做出審稿人認可的研究閉環。
論文介紹
本次復現的論文如下
![]()
https://www.sciencedirect.com/science/article/pii/S227458072500041X01
課程特色
1. 純公共數據庫發文閉環:無實驗也能做出“可投稿”的研究鏈路
不需要濕實驗、不依賴自建隊列,全程基于GEO等轉錄組數據 + IEU OpenGWAS/finngen 等結局數據 + eQTLGen 等 eQTL 數據 + 單細胞公開數據完成從選題到主圖的閉環。重點教你把公共數據“挖深、挖實、挖出因果證據”,讓臨床醫生/在讀博士也能用公共數據做機制文章。
2. 全流程系統教學:從公共數據下載到主圖交付的“保姆級模板工程”
不是零散技巧,而是完整工程化流程:數據下載→清洗與樣本信息→差異/交集→富集與網絡→MR(含敏感性)→模型驗證(ROC等)→GSEA/免疫浸潤→調控網絡→單細胞注釋/軌跡/通訊。配套可復跑代碼模板、參數表、驗收清單,確保每節課都有明確輸出的圖表。
3.AI賦能遷移到你自己的方向:從“復現一篇”到“復制一類文章”
課程交付的不只是這篇文章的復現結果,而是一套可遷移的“公共數據庫發文框架”:換疾病、換組織、換表型,也能快速套用流程,形成你自己的可復用代碼庫與套路模板。后續做自己的課題時,遇到數據選擇、MR 工具變量、單細胞驗證、圖形呈現等問題,都有針對性的遷移指導思路。
4.直播授課 + 錄屏回看 + 長期答疑:
直播課實時互動、課后錄屏反復看,資料包(代碼/講義數據/出圖模板)全配齊;課程結束答疑不結束,后續自己數據分析過程中遇到問題也是一對一指導答疑,真正做到包教包會,學有所用做出更有價值的研究成果。
5.一對一指導 + 包教包會:
七名全職的答疑助理,從早上八點到晚上十二點全天在線 ,365天全年無休的一對一答疑,實打實保證一對一指導的學習效率。
課程結束答疑不結束,后續自己數據分析過程中遇到問題也是一對一指導答疑,確保學完能直接上手課題,讓你真正學得會、用得上、挖掘公共數據庫完成自己的科研成果。
02
課程時間
一個月系統教學,實打實包教包會
每周二、周四和周日晚19:00-22:00
共十五節課
十二節課程精講,三節課答疑和總結
03
課程核心模塊
第一節課:AI + 公共數據庫發文范式解讀:從“相關性堆結果”到“MR×單細胞的因果機制證據鏈”
基于 Deepseek 高效精讀“公共數據庫挖掘型論文”
用 Deepseek 快速拆解這類文章最核心的發文邏輯:為什么只靠公開數據也能寫出“機制感”、怎樣把多隊列/多數據庫拼成一條可信的證據鏈、創新點通常落在哪里(因果、機制落點、外部驗證、可解釋性)。
Deepseek 拆解論文敘事框架:一條可復用的“公共數據因果鏈”
從“提出臨床/生物學問題”開始 → 公共轉錄組多隊列發現與穩健驗證 → 富集/網絡鎖定候選 →eQTL–GWAS MR 建立方向性因果(不是相關)→ 敏感性分析自證可靠 →單細胞定位到細胞類型/狀態→ 軌跡/通訊補齊“誰在驅動、如何互作”的機制解釋 → 形成可投稿的主圖敘事閉環。
ChatGPT:把這套范式遷移到你的疾病方向(選題到主圖規劃)
現場示范如何用 ChatGPT 做“可發文選題設計”:
1)如何選合適的公共數據組合(表達隊列/結局GWAS/eQTL/scRNA)
2)如何定義暴露與結局、提前規劃 MR 的可行性(IV數量、組織匹配、方向)
3)如何把“MR結果”落到單細胞的驗證任務(要看哪些細胞、哪些狀態、哪些互作)
![]()
第二節課:公共數據處理和差異分析
1.從GEO數據庫下載芯片數據,整理為訓練集
2.下載RNAseq數據進行臨床分組信息,整理為驗證集表達矩陣
3.數據預處理:探針注釋、重復基因合并、缺失處理
4.每個樣本 QC、數據標準化和批次效應處理
5.limma包進行差異分析:得到表達差異 DEGs, 作為候選基因
第三節課:功能富集與蛋白互作網絡:PPI/關鍵節點篩選(“把故事講成機制”)
1.多隊列一致性驗證:方向一致、顯著性一致、可視化一致
2.GO、KEGG和Reactome 富集:顯著通路篩選與可視化
3.GSEA 通路富集分析:從“基因列表”到“通路級解釋”的轉換
4.STRING 構建 PPI 網絡:導出網絡文件 + Cytoscape 可視化
5.網絡關鍵節點(hub)與模塊(cluster)篩選:構建“機制候基因”
形成“基因—通路—網絡”三層證據材料
![]()
第四節課:eQTLGen數據庫構建孟德爾隨機化的工具變量(IVs)
1.從eQTLGen數據庫下載Significant cis-eQTLs
2.閾值篩選與暴 露顯著相關的 SNP
3.進行 連鎖不平衡去相關,確保保留的 SNP 彼此獨立
4.過濾弱工具變量, 滿足與暴露因子顯著相關且與結局變量相互獨立
![]()
第五節課:基于 eQTL 暴露與疾病 GWAS 多基因孟德爾隨機化分析
1.將暴露數據與疾病結局數據統一轉換為 outcome/exposure 標準格式
2.用 SNP 取暴露與結局的交集,生成 SNP 的結局數據表
3.每個基因對應的暴露子集做等位基因方向一致化
4.MR 分析并做異質性、多效性、單 SNP、留一法等敏感性檢驗
第六節課:篩選有意義的暴露因素和基因單獨做孟德爾分析
1.讀取 MR 的全量結果,只保留IVW 方法p值顯著的結果
2.顯著暴露再做OR 方向一致性篩選,確保同一暴露在不同方法下效應方向一致
3.多效性(pleiotropy)與異質性(heterogeneity)結果按照 p 值進行篩選
4.用最終 IVW 篩出的暴露(基因)列表反向過濾 eQTL 數據,得到“高可信 IV 集合”
5.篩選出有意義的基因后,單獨對每個基因做孟德爾隨機化分析
![]()
第七節課:診斷與預測能力驗證:ROC/AUC + 多指標對比
1.單基因 ROC 與多基因聯合 ROC:訓練集 + 驗證集 AUC 比較
2.交叉驗證/重復抽樣:避免偶然高 AUC 的偽結果
3.校準曲線與分層分析:不同亞組/不同批次下穩定性評估
4.Nomogram 構建與可解釋輸出:讓臨床讀者看得懂、用得上
5.DCA 決策曲線:補齊臨床凈獲益證據(文章結構更完整)
![]()
第八節課:機制挖掘一:單基因/核心基因的通路機制(GSEA / GSVA)
1.按核心基因表達分組構建比較框架
2.單基因 GSEA(KEGG/Hallmark):輸出標準化 NES、p.adjust、核心富集基因
3.GSVA 打分:把通路活性轉成樣本級矩陣,便于畫圖與統計
4.與臨床分組/表型關聯:把通路變化寫成 機制解釋段落
5.輸出 核心基因→關鍵通路 的主圖級圖組(GSEA曲線 + 通路熱圖等)
![]()
第九節課:機制挖掘二:免疫浸潤與炎癥環境(ssGSEA/多算法交叉驗證)
1.免疫細胞基因集準備與 ssGSEA 打分(GSVA)
2.免疫細胞差異比較:疾病組 vs Control 分層比較
3.核心基因與免疫細胞相關:Spearman 相關 + 熱圖/散點回歸
4.多算法交叉驗證:xCell/EPIC/CIBERSORT 思路與結果一致性檢查
5.輸出 基因—免疫—通路 三聯證據圖,補齊審稿人常問的免疫解釋
第十節課:調控與關聯:ceRNA 網絡 + 疾病/藥物關聯(公共數據庫可完成)
1. miRNA 靶向預測(如 miRTarBase/TargetScan 思路)得到 miRNA–mRNA 對
2. lncRNA–miRNA 關聯(如 starBase 思路)補齊上游調控
3.構建 lncRNA–miRNA–mRNA(ceRNA)網絡:導出邊表/節點表并可視化
4.疾病關聯/證據補齊(如 CTD 思路):核心基因與疾病關聯排名展示
5.輸出 調控網絡圖 + 疾病關聯圖 ,讓文章從 結果 變成 更像機制論文
![]()
第十一節課:單細胞驗證一:把 MR 基因落到具體的細胞類型上
1.下載單細胞數據與注釋信息:建立可復用對象(Seurat 對象)
2.QC、歸一化、高變基因、降維聚類:標準化流程與關鍵參數
3.細胞類型注釋:marker 規則 + 自動注釋(SingleR和ScType 思路)+ 人工校正
4.核心基因在細胞類型中的表達:FeaturePlot/VlnPlot/DotPlot
5.輸出 關鍵基因在哪些細胞表達、差異在哪些細胞最明顯 的主圖證據
![]()
第十二節課:單細胞驗證二:軌跡推斷 + 細胞通訊(把機制寫成 誰驅動、如何互作 )
1.選定關鍵細胞亞群:基于標記基因與表型差異進行聚焦
2.軌跡分析(Monocle2 和 3/scVelo):狀態轉變與關鍵節點解釋
3.核心基因沿軌跡變化:把因果基因接到狀態變化上
4.細胞通訊分析(CellChat):差異互作通路與配體/受體細胞識別
5.文章化交付:把 MR + 單細胞結果整理為 可投稿的主圖敘事順序 + 圖注要點 + 結果段落模板
![]()
04
課程費用
課程費用2880元,醫咖會會員優惠價2500元,含直播授課+課程錄屏反復回看和一對一指導答疑,含 講義、代碼、數據等完整資料包。
七名全職的答疑助理,從早上八點到晚上十二點全天在線 ,365天全年無休的一對一答疑,實打實保證一對一指導的學習效率。
聯系人:小咖3號
微信號:xys2019ykh
掃碼添加小咖3號
05
課程收獲
一、MR 提因果、單細胞給機制:把“相關”升級為“方向性證據”
課程核心思路是 eQTL–GWAS 的孟德爾隨機化(MR)與scRNA-seq 單細胞定位/狀態/互作的強組合:
1.MR 解決“到底是不是因果、方向是什么、證據強不強”;
2.單細胞解決“這個因果基因到底在哪類細胞、處于什么狀態、通過什么互作通路影響疾病”。
3.最終形成審稿人最認可的“因果證據鏈 + 細胞機制落點”。
二、論文級作圖與審稿邏輯:每張圖都講“怎么做 + 為什么這樣做 + 怎么被追問也不怕”
1.除了把圖畫出來,更強調“圖背后的統計與生物學邏輯”:
2.閾值怎么設、批次/混雜怎么處理、MR 的異質性/多效性怎么解釋、單細胞注釋怎么自證、通訊/軌跡怎么避免過度解讀……讓你不僅能跑通代碼,還能深刻理解代碼背后的基本原理。
三、從“只會跑差異/畫熱圖”到“做出因果+機制閉環的公共數據庫文章”
將親手完成一篇純生信公共數據庫挖掘論文的全流程復現:從 GEO 多隊列數據下載與清洗,到差異與富集、網絡分析,再到eQTL–GWAS 孟德爾隨機化(MR)建立方向性因果證據,最后用單細胞數據把因果基因落到具體細胞類型/狀態/互作機制。
1.不是做出一些結果,而是把每一步變成可交付的證據鏈:相關→因果→細胞定位→機制解釋→主圖呈現。
2.學完能做到:看到一篇公共數據庫文章,知道它的關鍵數據來源是什么、每張圖背后的統計邏輯是什么、MR 怎么做才站得住、單細胞怎么做驗證才不空泛,并且能把同樣結構遷移到自己的疾病方向。
四、真正掌握公共數據庫發文的頂刊核心方法體系
本次訓練營的核心能力不是工具堆疊,而是建立一套可復用的方法框架:
多隊列一致性驗證體系:訓練集發現 → 外部驗證集復核 → 結果穩健性與可重復性
1.MR 因果推斷體系:IV 篩選、LD 去相關、F-stat 強度、異質性/多效性/LOO 敏感性分析,形成“因果證據”而非“相關猜想”
2.機制補全體系:GSEA/通路、免疫浸潤(ssGSEA/GSVA)、網絡推斷與關聯分析,把結論寫成“審稿人追問也不怕”的邏輯鏈
3.單細胞落地體系:把 MR 鎖定的關鍵基因放回細胞層面,回答“哪類細胞在驅動?在什么狀態變化?通過什么互作/通訊影響表型?”
五、讓沒有實驗條件的醫生/博士,也能“獨立做出可投稿的機制文章”
很多臨床研究者的瓶頸不在于不會畫圖,而在于兩件事:
1)結果容易停在“相關性”,缺乏說服力;
2)機制容易停在“泛泛解釋”,缺少細胞層面的落點。
這門課會讓你把公共數據真正用起來:
1.用MR把“關聯”升級為“方向性因果證據”
2.用單細胞把“候選基因”落到“細胞類型—細胞狀態—細胞互作”的機制鏈條
3.用規范化的出圖與寫作結構,把證據鏈做成審稿人一眼認可的主圖級敘事
總結 :
一套可復跑的工程化代碼庫(從下載到出圖全鏈路)
一套可遷移的“公共數據庫發文模板”(換疾病/換表型也能快速復用)
一套完整主圖結果:MR 因果圖 + 單細胞定位 + 通路/免疫/網絡支撐圖
一套“從結果到論文敘事”的寫作骨架:能把分析寫成文章,而不是只留在PPT
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.