網易首頁 > 網易號 > 正文申請入駐

孟德爾+單細胞全文復現（純生信公共數據挖掘）

2026-03-09 20:03:07　來源: 醫咖會

北京舉報

分享至

本次訓練營面向的是《純生信公共數據庫挖掘”型論文復現與遷移》：不需要做任何濕實驗、不依賴自建隊列，只需從公開數據把研究做成一篇可發表的機制文章。我們將以公共 bulk轉錄組/單細胞數據 + GWAS/eQTL為核心，教你把“現象關聯”升級為“因果證據”，把“群體層面的信號”落到“細胞類型與細胞狀態”上，用一條清晰的證據鏈完成從選題到主圖的全流程。

課程最核心的亮點是孟德爾隨機化（MR）+ 單細胞（scRNA-seq）/細胞互作：先在公共轉錄組中篩出穩健候選，再通過eQTL–GWAS 的 MR建立“基因/暴露→疾病”的方向性因果關系，解決最頭疼的“只是相關、說服力不夠”的問題；隨后把 MR 鎖定的關鍵基因帶入單細胞數據，完成細胞類型定位、表達分布、軌跡變化與細胞通訊，讓結論從“一個基因可能有關”變成“哪個細胞在什么時候通過什么互作通路驅動表型”。

最終學員將獲得一套可復制到任何疾病方向的公共數據庫發文模板：MR 提因果、單細胞給機制、主圖可交付，讓沒有實驗條件也能做出審稿人認可的研究閉環。

論文介紹

本次復現的論文如下

https://www.sciencedirect.com/science/article/pii/S227458072500041X

課程特色

1. 純公共數據庫發文閉環：無實驗也能做出“可投稿”的研究鏈路

不需要濕實驗、不依賴自建隊列，全程基于GEO等轉錄組數據 + IEU OpenGWAS/finngen 等結局數據 + eQTLGen 等 eQTL 數據 + 單細胞公開數據完成從選題到主圖的閉環。重點教你把公共數據“挖深、挖實、挖出因果證據”，讓臨床醫生/在讀博士也能用公共數據做機制文章。

2. 全流程系統教學：從公共數據下載到主圖交付的“保姆級模板工程”

不是零散技巧，而是完整工程化流程：數據下載→清洗與樣本信息→差異/交集→富集與網絡→MR（含敏感性）→模型驗證（ROC等）→GSEA/免疫浸潤→調控網絡→單細胞注釋/軌跡/通訊。配套可復跑代碼模板、參數表、驗收清單，確保每節課都有明確輸出的圖表。

3.AI賦能遷移到你自己的方向：從“復現一篇”到“復制一類文章”

課程交付的不只是這篇文章的復現結果，而是一套可遷移的“公共數據庫發文框架”：換疾病、換組織、換表型，也能快速套用流程，形成你自己的可復用代碼庫與套路模板。后續做自己的課題時，遇到數據選擇、MR 工具變量、單細胞驗證、圖形呈現等問題，都有針對性的遷移指導思路。

4.直播授課 + 錄屏回看 + 長期答疑：

直播課實時互動、課后錄屏反復看，資料包（代碼/講義數據/出圖模板）全配齊；課程結束答疑不結束，后續自己數據分析過程中遇到問題也是一對一指導答疑，真正做到包教包會，學有所用做出更有價值的研究成果。

5.一對一指導 + 包教包會：

七名全職的答疑助理，從早上八點到晚上十二點全天在線，365天全年無休的一對一答疑，實打實保證一對一指導的學習效率。

課程結束答疑不結束，后續自己數據分析過程中遇到問題也是一對一指導答疑，確保學完能直接上手課題，讓你真正學得會、用得上、挖掘公共數據庫完成自己的科研成果。

課程時間

一個月系統教學，實打實包教包會

每周二、周四和周日晚19:00-22:00

共十五節課

十二節課程精講，三節課答疑和總結

課程核心模塊

第一節課：AI + 公共數據庫發文范式解讀：從“相關性堆結果”到“MR×單細胞的因果機制證據鏈”

基于 Deepseek 高效精讀“公共數據庫挖掘型論文”

用 Deepseek 快速拆解這類文章最核心的發文邏輯：為什么只靠公開數據也能寫出“機制感”、怎樣把多隊列/多數據庫拼成一條可信的證據鏈、創新點通常落在哪里（因果、機制落點、外部驗證、可解釋性）。

Deepseek 拆解論文敘事框架：一條可復用的“公共數據因果鏈”

從“提出臨床/生物學問題”開始 → 公共轉錄組多隊列發現與穩健驗證 → 富集/網絡鎖定候選 →eQTL–GWAS MR 建立方向性因果（不是相關）→ 敏感性分析自證可靠 →單細胞定位到細胞類型/狀態→ 軌跡/通訊補齊“誰在驅動、如何互作”的機制解釋 → 形成可投稿的主圖敘事閉環。

ChatGPT：把這套范式遷移到你的疾病方向（選題到主圖規劃）

現場示范如何用 ChatGPT 做“可發文選題設計”：
1）如何選合適的公共數據組合（表達隊列/結局GWAS/eQTL/scRNA）
2）如何定義暴露與結局、提前規劃 MR 的可行性（IV數量、組織匹配、方向）
3）如何把“MR結果”落到單細胞的驗證任務（要看哪些細胞、哪些狀態、哪些互作）

第二節課：公共數據處理和差異分析

1.從GEO數據庫下載芯片數據，整理為訓練集

2.下載RNAseq數據進行臨床分組信息，整理為驗證集表達矩陣

3.數據預處理：探針注釋、重復基因合并、缺失處理

4.每個樣本 QC、數據標準化和批次效應處理

5.limma包進行差異分析：得到表達差異 DEGs，作為候選基因

第三節課：功能富集與蛋白互作網絡：PPI/關鍵節點篩選（“把故事講成機制”）

1.多隊列一致性驗證：方向一致、顯著性一致、可視化一致

2.GO、KEGG和Reactome 富集：顯著通路篩選與可視化

3.GSEA 通路富集分析：從“基因列表”到“通路級解釋”的轉換

4.STRING 構建 PPI 網絡：導出網絡文件 + Cytoscape 可視化

5.網絡關鍵節點（hub）與模塊（cluster）篩選：構建“機制候基因”

形成“基因—通路—網絡”三層證據材料

第四節課：eQTLGen數據庫構建孟德爾隨機化的工具變量（IVs）

1.從eQTLGen數據庫下載Significant cis-eQTLs

2.閾值篩選與暴露顯著相關的 SNP

3.進行連鎖不平衡去相關，確保保留的 SNP 彼此獨立

4.過濾弱工具變量，滿足與暴露因子顯著相關且與結局變量相互獨立

第五節課：基于 eQTL 暴露與疾病 GWAS 多基因孟德爾隨機化分析

1.將暴露數據與疾病結局數據統一轉換為 outcome/exposure 標準格式

2.用 SNP 取暴露與結局的交集，生成 SNP 的結局數據表

3.每個基因對應的暴露子集做等位基因方向一致化

4.MR 分析并做異質性、多效性、單 SNP、留一法等敏感性檢驗

第六節課：篩選有意義的暴露因素和基因單獨做孟德爾分析

1.讀取 MR 的全量結果，只保留IVW 方法p值顯著的結果

2.顯著暴露再做OR 方向一致性篩選，確保同一暴露在不同方法下效應方向一致

3.多效性（pleiotropy）與異質性（heterogeneity）結果按照 p 值進行篩選

4.用最終 IVW 篩出的暴露（基因）列表反向過濾 eQTL 數據，得到“高可信 IV 集合”

5.篩選出有意義的基因后，單獨對每個基因做孟德爾隨機化分析

第七節課：診斷與預測能力驗證：ROC/AUC + 多指標對比

1.單基因 ROC 與多基因聯合 ROC：訓練集 + 驗證集 AUC 比較

2.交叉驗證/重復抽樣：避免偶然高 AUC 的偽結果

3.校準曲線與分層分析：不同亞組/不同批次下穩定性評估

4.Nomogram 構建與可解釋輸出：讓臨床讀者看得懂、用得上

5.DCA 決策曲線：補齊臨床凈獲益證據（文章結構更完整）

第八節課：機制挖掘一：單基因/核心基因的通路機制（GSEA / GSVA）

1.按核心基因表達分組構建比較框架

2.單基因 GSEA（KEGG/Hallmark）：輸出標準化 NES、p.adjust、核心富集基因

3.GSVA 打分：把通路活性轉成樣本級矩陣，便于畫圖與統計

4.與臨床分組/表型關聯：把通路變化寫成機制解釋段落

5.輸出核心基因→關鍵通路的主圖級圖組（GSEA曲線 + 通路熱圖等）

第九節課：機制挖掘二：免疫浸潤與炎癥環境（ssGSEA/多算法交叉驗證）

1.免疫細胞基因集準備與 ssGSEA 打分（GSVA）

2.免疫細胞差異比較：疾病組 vs Control 分層比較

3.核心基因與免疫細胞相關：Spearman 相關 + 熱圖/散點回歸

4.多算法交叉驗證：xCell/EPIC/CIBERSORT 思路與結果一致性檢查

5.輸出基因—免疫—通路三聯證據圖，補齊審稿人常問的免疫解釋

第十節課：調控與關聯：ceRNA 網絡 + 疾病/藥物關聯（公共數據庫可完成）

1. miRNA 靶向預測（如 miRTarBase/TargetScan 思路）得到 miRNA–mRNA 對

2. lncRNA–miRNA 關聯（如 starBase 思路）補齊上游調控

3.構建 lncRNA–miRNA–mRNA（ceRNA）網絡：導出邊表/節點表并可視化

4.疾病關聯/證據補齊（如 CTD 思路）：核心基因與疾病關聯排名展示

5.輸出調控網絡圖 + 疾病關聯圖，讓文章從結果變成更像機制論文

第十一節課：單細胞驗證一：把 MR 基因落到具體的細胞類型上

1.下載單細胞數據與注釋信息：建立可復用對象（Seurat 對象）

2.QC、歸一化、高變基因、降維聚類：標準化流程與關鍵參數

3.細胞類型注釋：marker 規則 + 自動注釋（SingleR和ScType 思路）+ 人工校正

4.核心基因在細胞類型中的表達：FeaturePlot/VlnPlot/DotPlot

5.輸出關鍵基因在哪些細胞表達、差異在哪些細胞最明顯的主圖證據

第十二節課：單細胞驗證二：軌跡推斷 + 細胞通訊（把機制寫成誰驅動、如何互作）

1.選定關鍵細胞亞群：基于標記基因與表型差異進行聚焦

2.軌跡分析（Monocle2 和 3/scVelo）：狀態轉變與關鍵節點解釋

3.核心基因沿軌跡變化：把因果基因接到狀態變化上

4.細胞通訊分析（CellChat）：差異互作通路與配體/受體細胞識別

5.文章化交付：把 MR + 單細胞結果整理為可投稿的主圖敘事順序 + 圖注要點 + 結果段落模板

課程費用

課程費用2880元，醫咖會會員優惠價2500元，含直播授課+課程錄屏反復回看和一對一指導答疑，含講義、代碼、數據等完整資料包。

七名全職的答疑助理，從早上八點到晚上十二點全天在線，365天全年無休的一對一答疑，實打實保證一對一指導的學習效率。

聯系人：小咖3號

微信號：xys2019ykh

掃碼添加小咖3號

課程收獲

一、MR 提因果、單細胞給機制：把“相關”升級為“方向性證據”

課程核心思路是 eQTL–GWAS 的孟德爾隨機化（MR）與scRNA-seq 單細胞定位/狀態/互作的強組合：

1.MR 解決“到底是不是因果、方向是什么、證據強不強”；

2.單細胞解決“這個因果基因到底在哪類細胞、處于什么狀態、通過什么互作通路影響疾病”。
3.最終形成審稿人最認可的“因果證據鏈 + 細胞機制落點”。

二、論文級作圖與審稿邏輯：每張圖都講“怎么做 + 為什么這樣做 + 怎么被追問也不怕”

1.除了把圖畫出來，更強調“圖背后的統計與生物學邏輯”：
2.閾值怎么設、批次/混雜怎么處理、MR 的異質性/多效性怎么解釋、單細胞注釋怎么自證、通訊/軌跡怎么避免過度解讀……讓你不僅能跑通代碼，還能深刻理解代碼背后的基本原理。

三、從“只會跑差異/畫熱圖”到“做出因果+機制閉環的公共數據庫文章”

將親手完成一篇純生信公共數據庫挖掘論文的全流程復現：從 GEO 多隊列數據下載與清洗，到差異與富集、網絡分析，再到eQTL–GWAS 孟德爾隨機化（MR）建立方向性因果證據，最后用單細胞數據把因果基因落到具體細胞類型/狀態/互作機制。
1.不是做出一些結果，而是把每一步變成可交付的證據鏈：相關→因果→細胞定位→機制解釋→主圖呈現。

2.學完能做到：看到一篇公共數據庫文章，知道它的關鍵數據來源是什么、每張圖背后的統計邏輯是什么、MR 怎么做才站得住、單細胞怎么做驗證才不空泛，并且能把同樣結構遷移到自己的疾病方向。

四、真正掌握公共數據庫發文的頂刊核心方法體系

本次訓練營的核心能力不是工具堆疊，而是建立一套可復用的方法框架：

多隊列一致性驗證體系：訓練集發現 → 外部驗證集復核 → 結果穩健性與可重復性

1.MR 因果推斷體系：IV 篩選、LD 去相關、F-stat 強度、異質性/多效性/LOO 敏感性分析，形成“因果證據”而非“相關猜想”

2.機制補全體系：GSEA/通路、免疫浸潤（ssGSEA/GSVA）、網絡推斷與關聯分析，把結論寫成“審稿人追問也不怕”的邏輯鏈

3.單細胞落地體系：把 MR 鎖定的關鍵基因放回細胞層面，回答“哪類細胞在驅動？在什么狀態變化？通過什么互作/通訊影響表型？”

五、讓沒有實驗條件的醫生/博士，也能“獨立做出可投稿的機制文章”

很多臨床研究者的瓶頸不在于不會畫圖，而在于兩件事：
1）結果容易停在“相關性”，缺乏說服力；
2）機制容易停在“泛泛解釋”，缺少細胞層面的落點。

這門課會讓你把公共數據真正用起來：

1.用MR把“關聯”升級為“方向性因果證據”

2.用單細胞把“候選基因”落到“細胞類型—細胞狀態—細胞互作”的機制鏈條

3.用規范化的出圖與寫作結構，把證據鏈做成審稿人一眼認可的主圖級敘事

總結：

一套可復跑的工程化代碼庫（從下載到出圖全鏈路）
一套可遷移的“公共數據庫發文模板”（換疾病/換表型也能快速復用）
一套完整主圖結果：MR 因果圖 + 單細胞定位 + 通路/免疫/網絡支撐圖
一套“從結果到論文敘事”的寫作骨架：能把分析寫成文章，而不是只留在PPT

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.