
在長讀長測序 (Long-read Sequencing) 領域,精準的變異檢測一直是科研與臨床應用的關鍵瓶頸。近日,香港大學羅銳邦教授團隊在NatureCommunications上接連發表兩項成果:針對無配對腫瘤樣本體細胞測序數據的變異檢測工具ClairS-TO:
ClairS
-TO: a deep-learning method for long-read tumor-only somatic small variant calling,以及 專為長讀長 RNA 測序設計的Clair3-RNA: a deep learning-based small variant caller for long-read RNA sequencing data
![]()
![]()
作為長讀長測序變異檢測領域的標桿工具,以Clair3為代表的Clair系列已被廣泛應用,并獲得牛津納米孔技術公司 (Oxford Nanopore Technologies, ONT) 官方推薦。憑借出色的穩定性和易用性,Clair系列Docker鏡像下載量已突破10萬次,成為全球生物信息學家處理長讀長數據的常用工具之一。此次ClairS-TO和Clair3-RNA的發布,使Clair系列在基因組學分析場景中實現了更全面的覆蓋。
兩大工具解決行業關鍵問題
這兩項新工具的核心價值在于解決了長期存在的兩大技術難題:
1. 突破樣本限制(ClairS-TO)
在臨床和真實世界研究中,往往難以獲取與患者腫瘤樣本相匹配的正常組織 (Matched Normal) 作為對照。ClairS-TO使得研究人員僅憑腫瘤樣本 (Tumor-Only),即可利用長讀長數據精準區分體細胞變異與胚系變異,降低了研究對樣本的要求。
2. 實現轉錄組變異分析(Clair3-RNA)
RNA測序不僅能定量基因表達,更是發現轉錄后修飾和等位基因特異性表達的重要手段。Clair3-RNA填補了長讀長RNA測序缺乏專用變異檢測工具的空白,有效克服了RNA數據固有的高錯誤率和覆蓋度不均等技術挑戰。
ClairS-TO:“肯定-否定”雙網絡機制提升體細胞變異檢測精度
技術背景與挑戰
長讀長測序憑借其跨越復雜基因組區域(如高重復區、結構變異區)的能力,正在成為癌癥研究的重要技術手段。然而,現有的Tumor-Only變異檢測工具大多針對短讀長測序設計,難以適應長讀長測序較高的錯誤率和獨特的錯誤模式。
在缺乏配對正常樣本作為參考的情況下,算法必須獨立應對兩大核心挑戰:
噪音干擾:如何在低VAF(變異等位基因頻率)條件下,將真實的體細胞突變與測序背景噪音準確區分
胚系混淆:胚系變異的數量通常比體細胞變異高出兩個數量級,如何精準過濾這些背景信號
ClairS-TO是首個專為長讀長數據設計的深度學習Tumor-Only體細胞變異檢測工具。該工具引入了以下技術創新:
核心技術特點
雙神經網絡集成架構(Ensemble of Disparate Networks)
ClairS-TO采用了兩個在同一數據集上訓練但任務方向相反的神經網絡:
肯定網絡(Affirmative Network, AFF):評估候選位點為體細胞變異的可能性
否定網絡(Negational Network, NEG):評估候選位點非體細胞變異的可能性
通過貝葉斯方法整合兩個網絡的預測結果,顯著提升了檢測準確性。
合成腫瘤樣本訓練與Verdict統計模塊
針對真實體細胞變異樣本稀缺的問題,ClairS-TO利用合成腫瘤樣本(Synthetic Tumor Samples)進行預訓練。同時,其內置的Verdict統計模塊能夠利用估算的腫瘤純度、倍性和拷貝數圖譜信息,即使在低純度樣本中也能精準過濾胚系變異。
![]()
圖片來源:Chen et al., Nature Communications, 2025. DOI: 10.1038/s41467-025-64547-z
性能驗證
研究團隊在COLO829(黑色素瘤)和HCC1395(乳腺癌)細胞系上進行了廣泛的基準測試,涵蓋了不同的覆蓋度、腫瘤純度和VAF范圍,在各項指標上均達到了當前最優水平。
Clair3-RNA:首個長讀長RNA專用變異檢測工具
Clair3-RNA是目前首個專為長讀長RNA測序設計的深度學習變異檢測工具,支持PacBio Iso-Seq/MAS-Seq和ONT cDNA/dRNA測序平臺。
核心技術特點
覆蓋度歸一化與專用神經網絡架構
針對RNA測序中因轉錄本豐度差異導致的覆蓋度極不均勻問題,Clair3-RNA采用了覆蓋度歸一化技術。模型基于Bi-LSTM架構,并針對RNA數據特性進行了多任務輸出優化(同時預測基因型與雜合性)。
首次整合單倍型定相信息(Haplotype Phasing)
Clair3-RNA在RNA變異檢測神經網絡中首次引入定相信息。實驗結果顯示,整合定相信息后,PacBio和ONT平臺的SNP F1-score分別達到約98%和97%。
RNA編輯位點準確識別
RNA數據中常見的A-to-I編輯極易被誤判為基因變異。Clair3-RNA通過整合REDIportal數據庫并采用特定的訓練策略,能夠有效識別并標記RNA編輯位點,顯著降低假陽性率。
![]()
圖片來源:Nature Communications, 2025. DOI: 10.1038/s41467-025-67237-y
開源資源
ClairS-TO 開源地址: https://github.com/HKU-BAL/ClairS-TO
Clair3-RNA 開源地址: https://github.com/HKU-BAL/Clair3-RNA
展望
隨著工具的不斷完善,Clair系列已形成完整的產品矩陣:針對生殖細胞變異的Clair3、體細胞變異的ClairS及ClairS-TO、長讀長RNA測序的Clair3-RNA,以及家系變異檢測的Clair3-Trio。這些工具正在擴展長讀長測序在基因組分析中的應用范圍和檢測精度。
https://www.nature.com/articles/s41467-025-64547-z
https://www.nature.com/articles/s41467-025-67237-y
制版人: 十一
學術合作組織
(*排名不分先后)
![]()
戰略合作伙伴
(*排名不分先后)
![]()
![]()
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
BioArt
Med
Plants
人才招聘
近期直播推薦

點擊主頁推薦活動
關注更多最新活動!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.