
連鎖不平衡 (Linkage Disequilibrium, LD) 是群體遺傳學和基因組學的基石,衡量了不同位點的非隨機關聯。面對當前生物銀行 (Biobank) 級別的海量數據,全基因組的LD模式精確計算一直是“不可完成的任務”。
近日,Genome Biology雜志發表了題為X-LDR: An Atlas of Linkage Disequilibrium Across Species的文章,研究團隊開發了超高效的隨機算法X-LDR,將計算復雜度從O(nm2)降低到O(nmB)(這里算法 B 指迭代次數,遠小于群體樣本量 n 和標記數 m )。更在理論上推導了包含群體結構效應的LD廣義公式,首次實現了對“真實LD”和“群體結構所導致LD”的模式精準解析和分離。基于此,團隊繪制了UK Biobank樣本級別(約30萬樣本,420萬SNP)的全局LD圖譜,也繪制了首個覆蓋25個物種的LD圖譜,并利用全新的LD衰減回歸模型,為“走出非洲”等人類群體歷史事件提供了全新的基因組學證據。
![]()
LD的廣義解析解與“剝離”技術
長期以來,遺傳學家對LD的研究大多局限于1,000kb以內,因為傳統計算全基因組LD 的計算成本會隨著標記點數量的平方增長。面對數百萬個SNP位點,這無疑是一道不可逾越的“計算高墻”。這使得我們對基因組的全局架構和長程LD模式幾乎鮮有所知。本研究基與一個三聯恒等式,從理論上重構了LD的計算和解析方式 (Eq 1)。它將全局LD與群體遺傳關系矩陣(K)的特征值精確地聯系起來。對于biobank級別數據,K 的計算并不容易,但通過Hutchinson隨機估算降低了計算復雜度,從而我們提供了一個計算上可行的廣義的LD估算(Eq 2)。
在群體遺傳學中,群體混合或分層(Population Structure)會引入虛假的LD信號,“污染”觀測結果。而特征值正是群體結構的近似表征。因此,新方法通過削去頂部特征值關聯的群體結構項,將這部分“噪音”完美地“剝離”(LD Peeling, Eq 3),從而首次揭示出隱藏在數據之下的更真實LD信號。
900萬LD網格與1KG人群的完美“去噪”
基于這一理論,我們開發了專為生物銀行級別數據設計的X-LDR算法。我們首先將其應用于英國生物樣本庫 (UK Biobank) 的龐大數據中(約30萬樣本,420萬SNP)。X-LDR在極短時間內(80個核,12小時)生成了一張包含近911萬個LD網格 (LD blocks) 的超高分辨率人類基因組LD圖譜 (圖1A)。這張圖以前所未有的方式高精度展示了人類基因組的LD架構,并清晰地識別出一些已知的高LD區域,如6號染色體上的人類白細胞抗原 (HLA) 區域以及著絲粒。
![]()
圖1A 證明了X-LDR在生物數據庫級別數據中的可計算性。接下來,我們使用1000 Genomes (1KG) 人群數據——一個知名的多種族高度混合、“噪音”極強的數據集,來驗證我們“剝離”技術的準確性。
我們檢驗了兩大群體遺傳學規律:Norm I 模式 (染色體LD與染色體長度成反比):在“剝離”前,1KG的混合數據與理論嚴重不符,模型擬合度僅為 Rsq=0.3(圖1B深紅色)。當我們“剝離”掉群體結構噪音后,數據瞬間“變得干凈”,Rsq躍升至 0.91(圖1B淺紅色),與理論完美契合 (圖1B, C)。Norm II 模式 (染色體間LD與群體結構成正比):染色體間的LD本應接近于零,其信號主要來自群體結構偽跡。如圖1D所示,“剝離”前Rsq約等于1,顯示LD信號完全由群體結構主導。而“剝離”后,這種虛假關聯隨之減弱甚至徹底消失 (圖1E)。圖1的結果清晰地證明:X-LDR不僅算得快、算得大,而且算得準,成功地開發出了一套兼具規模與精度的LD計算引擎。
LD回歸分析重現“走出非洲”
擁有了這臺強大的新“LD望遠鏡”,我們做的第一件事就是回溯人類的群體歷史。我們首創了一種LD衰減回歸 (LD-dReg) 分析。簡而言之,我們利用“剝離”后的干凈LD數據,計算出一個全基因組的平均LD得分 1 ,該得分可以量化一個群體LD的有效區域強度。 1 越高,意味著群體經歷的重組次數越少,LD也越高。我們將此方法應用于四個單一族裔的人群(CONVERGE—一萬個中國婦女,WBBC—一萬個中國人,兩個東亞人群;UKBW—UKB的278781個白人群體,UKBB—UKB的5057個黑人群體),得到了清晰的“三級跳”結果 (圖2B-E):
![]()
東亞人群(回歸值 60 )> 歐洲人群( 56 )> 非洲人群( 33 ),這一清晰LD遞減趨勢,與人類群體遺傳學中經典的“走出非洲” (Out-of-Africa) 遷徙模型完美吻合。作為人類的起源地,非洲人群擁有最古老和最多樣化的基因庫,經歷了最長時間的重組事件,因此其LD充分衰減 ( 33 最低)。而當人類的祖先走出非洲,遷徙至歐洲和東亞時,經歷了一系列群體瓶頸效應,導致等位基因頻率發生劇變,LD被鎖定在較高水平。回歸斜率,是我們利用新方法發現的一個全新的、穩健的群體歷史量化指標。它不再依賴于少數幾個基因位點,而是利用全基因組的LD架構模式,為“走出非洲”這一人類史詩級遷徙事件,提供了強有力的基因組學新證據。
25個物種的基因組“Kilt圖”
我們繪制“跨物種LD圖譜” (An Atlas of Linkage Disequilibrium Across Species)。我們將X-LDR算法應用范圍從人類擴展到了25個隨機挑選的參考物種 (RefPop),涵蓋哺乳動物 (小鼠)、鳥類 (大山雀)、昆蟲 (果蠅)、植物 (蘋果、大麥、棉花、水稻、煙草、番茄等),甚至真菌 (酵母)。為了直觀比較這些物種的基因組架構,我們創建了一種新穎的可視化方法,稱之為 “Kilt plot” (蘇格蘭裙圖),以“蘇格蘭格子裙”的形式展示了每個物種全基因組的LD結構。
![]()
這張圖譜揭示了物種間“高度多樣化和異質性”的LD結構。每一個物種都展現出了獨一無二的LD模式,記錄了它們各自獨特的進化、馴化或育種歷史:蘋果 (Apple) (圖3B) 和 牛 (Cattle) (圖3D) 呈現出強烈的對角線模式,反映了清晰的染色體結構。大麥 (Barley) (圖3C) 和棉花 (Cotton) (圖3G) 則在染色體上出現了巨大的、異常的LD色塊,它們極有可能是人類在長期育種和馴化過程中,進行強烈人工選擇所留下的深刻烙印。煙草 (Tobacco) (圖3V) 在舊版煙草參考基因組 (Nitab4.5) 顯示出奇怪的跨染色體LD,我們進一步將參考基因組切換到新版更精細的基因組上 (NtaSR1),LD模式似乎正常了許多。這本LD地圖集不但是比較基因組學、群體遺傳學和動植物育種研究的基礎資源,更是一個強大的基因組“質檢”工具—指出組裝錯誤或者參考基因組選擇不當。
總結與展望
本研究通過算法和理論的雙重革新,開發了多功能工具包GEAR (包含X-LD和X-LDR算法),成功解決了全局LD計算的“卡脖子”問題。本研究的貢獻是雙重的:一個創新的工具:一個前所未有地快、準、可擴展的LD計算引擎X-LDR。一個基礎性的資源:我們提供了首個“跨物種LD圖譜”,這將成為未來比較基因組學和進化生物學研究的基準參考。我們相信,這項工作為研究跨物種基因組架構打開了新的大門。我們不僅提供了更強大的“望遠鏡” (X-LDR工具),還繪制了第一張基因組架構的“星圖” (Kilt圖譜)。
比較人類群體(UKB)與一般群體(RefPop),最大的差別來自是否遵循隨機交配原則。人類群體LD類似對角線鋪滿小馬賽克的墻面(Fig 1),而非隨機交配群體和混雜的群體(RefPop),整體LD結構更像鋪滿大號瓷磚的墻面—有時甚至瓷磚比墻面還大 (Kilt 圖)!這是因為,在隨機交配原則下,基因組類似被填塞在黑箱的理想氣體,每一次的世代傳遞減弱兩兩SNP之間的LD,直至世代的終點,完全失聯—這是可以預測的。而非隨機群體則如同隨時被重啟被再度壓縮的氣體,在混沌交替中每個世代展現不同的特征。
那么,哪些群體更需要一張全局的LD圖?類似RefPop的參考物種或許更需要計算和構建自身的LD圖,如同Kilt圖中所比較和展示的那樣。
研究人員 浙江大學:朱天能, 黃鑫,齊國安,張齊心,林峰,徐海明 華南農業大學;張文勁,張哲 華大研究院:金鑫 西湖大學:楊夢圓 蘇州大學附屬第二醫院:鄭厚峰 貴州煙草科學研究院:余世洲 浙江省人民醫院:陳國波
原文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03863-5
制版人:十一
BioArt
Med
Plants
人才招聘
學術合作組織
(*排名不分先后)
![]()
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.