撰文丨王聰
編輯丨王多魚
排版丨水成文
在基因療法和 mRNA 疫苗研發中,精準控制蛋白質表達一直是個關鍵難題。傳統的 mRNA 翻譯機制依賴其“帽子結構”,但在細胞應激或病毒感染時,這種機制常常失效。這時,一種名為IRES(內部核糖體進入位點)的 RNA 元件就成為了救命稻草,這是一段位于 mRNA 5' 端非翻譯區的特殊序列,它能繞過帽子結構直接啟動翻譯,因此成為合成生物學和治療性有效載荷表達中極具吸引力的工具。
然而,IRES 的研究和應用長期受限于兩個瓶頸:一是識別困難,傳統方法耗時費力;二是設計更難,其復雜的結構-功能關系讓理性設計難以實現。
2026 年 4 月 24 日,斯坦福大學叢樂教授、普林斯頓大學王夢迪教授作為共同通訊作者(褚晏伊、尹笛、于丹、徐廣雪為共同第一作者),在 Nature 子刊Nature Machine Intelligence上發表了題為:Programmable RNA translation through deep learning-driven IRES discovery and de novo generation 的研究論文。論文第一作者褚晏伊博士已加入中國科學院分子細胞科學卓越創新中心(生化細胞所),任獨立研究員。
該研究構建了一個全面的端到端 AI 框架,將 IRES 的精準識別(IRES-LM)、進化優化(IRES-EA)和從頭生成(IRES-DM)統一起來。這一框架為可編程 RNA 翻譯建立了一種穩健方法,擴大了用于推進下一代生物醫學發現和 RNA 療法的分子工具包。
![]()
三駕馬車:攻克 IRES 難題
在這項最新研究中,研究團隊構建了一個端到端的 AI 框架,包含三個核心組件——IRES-LM、IRES-EA和IRES-DM,就像三位各司其職的專家,共同解決了 IRES 研究中的三大難題。
IRES-LM:火眼金睛的識別專家
首先需要準確識別IRES。傳統方法依賴手工特征,效果有限。研究團隊訓練了兩個語言模型——專門研究 5'UTR 的 UTR-LM 和擅長非編碼 RNA 分析的 RNA-FM,讓它們學習 46774 個標記序列。
這個名為 IRES-LM 的模型組合表現驚人:在線性 mRNA IRES 識別上,曲線下面積(AUC)和 F1 分數比現有最佳方法提高了15%。更厲害的是,它雖然只訓練了線性 RNA 數據,卻能準確識別出所有21個經過實驗驗證的環狀 RNA 的 IRES,而其他方法最多只能識別出 15 個。
IRES-EA:精準改造的進化大師
識別之后是改造IRES。研究團隊開發了 IRES-EA 進化算法,能夠通過定向突變誘導 IRES 功能。算法會"掩蔽"序列中的某些位置,然后根據 IRES-LM 的預測,選擇最可能增強功能的突變。
在 37293 個非 IRES 序列的計算評估中,60% 被成功轉化為預測的 IRES 序列,其中 5% 達到了 90% 以上的高 IRES 概率。大規模并行報告實驗驗證了 12000 個突變序列,98.4% 都獲得了可檢測的IRES功能。
IRES-DM:創意無限的設計師
最后是從頭生成IRES。IRES-DM 這個基于擴散模型(diffusion model )的系統能夠從隨機噪聲中生成全新的 IRES 序列,它不需要任何模板,完全憑“想象力”從頭設計。
驗證結果顯示,IRES-DM 生成的序列中,99.3% 都具有功能 IRES 活性。更神奇的是,它能設計出與天然 IRES 序列相似度僅 27.6%、但二級結構高度相似的變體,揭示了實現 IRES 功能的多條進化路徑。
![]()
實驗驗證:從計算預測到真實功能
AI 設計得再好,最終還是要看實際效果。研究團隊通過雙熒光雙順反子報告系統進行了大規模驗證。
他們將細胞根據 GFP/mCherry 比例分成四個區間,然后通過下一代測序量化各區間中的序列豐度。對 IRES-EA 改造的 12000 個突變序列的測試顯示,98.4% 的序列都表現出功能活性。對 IRES-DM 從頭生成的另一組 12000 個序列的測試更是表現出 99.3% 的功能活性。
特別值得注意的是,AI 不僅復制了自然界中常見的高活性基序,還發現了自然進化中很少使用但活性很高的新模式,這意味著 AI 正在探索自然進化未曾涉足的序列空間。
意義與前景:打開 RNA 療法新天地
這項研究的價值不僅在于技術突破,更在于它為整個 RNA 療法領域打開了新的可能性。
首先,實現精準控制,通過 AI 設計和生成的 IRES,研究人員可以更精確地調控治療性蛋白質的表達水平,這對于癌癥治療、遺傳病治療等都至關重要。
其次,提升 RNA 疫苗效果,工程化的 IRES 可以增強 mRNA 和環狀 RNA 疫苗的翻譯效率,提高疫苗的保護效果。
第三,允許多基因協同表達,IRES 允許在同一個 mRNA 上表達多個蛋白質,這對于需要多種蛋白質協同作用的復雜療法特別有價值。
最后,提供基礎研究新工具,可用于系統性研究 IRES 的工作機制,探索翻譯調控的深層規律。
從精準識別到定向改造,再到從頭生成,這套 AI 框架展現了深度學習在生命科學中的巨大潛力。它不僅是技術上的突破,更代表了一種研究范式的轉變——從依賴自然進化的偶然發現,轉向基于深度理解的理性設計。
2024 年 4 月 5 日,普林斯頓大學王夢迪團隊(褚晏伊、于丹為共同第一作者)在Nature Machine Intelligence上發表了題為:A 5′ UTR language model for decoding untranslated regions of mRNA and function predictions 的研究論文。
該研究開發了一種語言模型(language model)——UTR-LM,該模型利用其語義表征能力解碼 mRNA 的 5'UTR 區并預測其功能,并在此基礎上生成 mRNA 的 5'UTR 序列,其中,生成的新冠病毒 S 蛋白的 mRNA 的 5'UTR區,相比現有的優化的 5'UTR 區,能夠將 S 蛋白生成水平大幅提高 32.5%,從而幫助開發更有效的 mRNA 疫苗。
![]()
![]()
5′UTR 功能預測與設計的 UTR-LM 模型
褚晏伊實驗室正在招聘 AI 背景的研究生、研究助理、博士后、副研究員,歡迎聯系:yanyi.chu@sibcb.ac.cn。
![]()
論文鏈接:
1. https://www.nature.com/articles/s42256-026-01213-z
2. https://www.nature.com/articles/s42256-024-00823-9
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.