近日,復旦大學生物醫學研究院楊力研究員團隊在《科學通報》發表題為“轉錄組生物信息學: 從數據生成到分析框架”的評述文章,系統梳理轉錄組研究中高通量測序數據的獲得與分析的核心原理,概述了機器學習技術在轉錄組研究的應用,為轉錄組生物信息學研究提供理論參考與技術啟示。
文章以轉錄組的復雜性作為切入點,從轉錄產物和調控方式兩個方面簡要闡述了轉錄組的特征:一方面,除了mRNA外還存在多種類型的非編碼RNA發揮不同的生物學功能;另一方面,RNA還經過不同的加工發揮生物學作用,包括但不限于選擇性加尾、可變(反向)剪接、RNA編輯、RNA修飾等,展現了轉錄組在生命活動中的豐富功能。
文中根據轉錄組測序/分析技術特點進行系統性分類總結。轉錄組數據可以根據測序技術平臺分為二代短讀長測序和三代長讀長測序技術,二代測序可以根據數據富集/分析目標的差異分為三類:1)轉錄本全序列富集;2)轉錄本目標片段富集;3)引入突變的轉錄本片段富集。另外得益于技術突破,二代測序數據的分辨率從細胞群均值提升到單細胞精度。
針對不同測序數據,文章概述了其技術原理和配套分析方法,并列舉了在轉錄組研究中的多種應用場景。轉錄本全序列富集測序技術在RNA富集過程中不進行打斷,理論上可以獲取轉錄本全序列的測序數據,通過測序讀序比對工具及定量分析方法,可應用于基因差異表達、可變(反向)剪接、新型RNA分子鑒定、新生轉錄本等方面的研究;轉錄本目標片段富集測序技術僅對目標片段進行富集建庫,經過數據比對確定富集片段或者反轉錄停止位點坐標,實現區間精度或單堿基精度的數據分析,被廣泛用于RNA可變加尾、RNA修飾、RNA-蛋白互作、RNA-RNA互作、RNA二級結構等多個轉錄組調控機制的研究;引入突變的轉錄本片段富集測序利用人為造成的堿基突變指示RNA上的修飾或特定位點結構,得益于序列比對工具的進步,研究者可以準確快速地識別突變位點,在單堿基精度實現對RNA-蛋白結合、RNA修飾、RNA結構等轉錄調控的研究。基于微流控液滴/微孔板技術的單細胞轉錄組測序將轉錄組研究從群體平均定量提升到單個細胞水平定量,為解析細胞異質性、構建發育軌跡、鑒定稀有細胞亞群提供有效技術手段,在腫瘤微環境、胚胎發育和免疫細胞分型等領域具有突破性應用。同時三代長讀長測序技術克服了二代測序讀序短、無法區分重復序列的缺點,實現無拼接的全長轉錄本捕獲,實現單分子水平轉錄本研究,還可與單細胞測序技術結合,顯著提升復雜轉錄組的解析精度。
![]()
圖1 轉錄組研究相關測序技術及分析方法
除了傳統的生物信息學方法,文章還概括了機器學習技術在轉錄組研究的發展歷程,介紹了近年來快速發展的深度學習技術在生命科學研究中的應用實例,并討論了訓練數據對模型性能的影響和常見的數據處理手段。隨后以發表的模型為例,從訓練數據集的構建和編碼方式兩方面介紹了常見的數據處理方法,并展示數據的篩選以及編碼方式對模型性能的影響,為研究者利用深度學習技術深入研究轉錄組提供一些啟發。
最后,文章討論了轉錄組研究的發展趨勢。隨著單細胞測序、空間轉錄組學和長讀長測序技術的突破,研究從傳統批量分析向多時空動態解析推進,也為轉錄組在臨床疾病診療的應用提供了更多的技術手段。雖然目前深度學習技術在生物研究中得到了廣泛應用,但有限的訓練數據和模型可解釋性也阻礙了模型在轉錄組研究的使用效果,這也是研究人員目前努力突破的方向。相信隨著數據與算法的協同發展,未來轉錄組學研究有望建立轉錄組調控的精細時空網絡模型,為理解復雜疾病發生機制和開發靶向治療策略提供全新視角。
復旦大學生物醫學研究院楊力研究員為本文的通訊作者,南芳博士為本文的第一作者。
文章信息
南芳, 馬旭凱, 楊力, 轉錄組生物信息學: 從數據生成到分析框架, 科學通報, 2025, 70(15): 2356-2374
https://doi.org/10.1360/TB-2025-0160.
轉載、投稿請留言
| 關注科學通報 | 了解科學前沿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.