撰文丨王聰
編輯丨王多魚
排版丨水成文
蛋白質(zhì)是生命世界里的“萬能工具”。從消化食物、抵抗病毒,到傳遞信號、構(gòu)成身體,幾乎每一個(gè)生命過程都由蛋白質(zhì)驅(qū)動。如果能像工程師一樣,隨心所欲地設(shè)計(jì)或改造蛋白質(zhì),我們就能創(chuàng)造出全新的藥物、更高效的疫苗、能吸收更多二氧化碳的植物,甚至是生物合成的環(huán)保材料。幾乎沒有哪個(gè)科學(xué)領(lǐng)域比蛋白質(zhì)工程具有更廣泛的社會影響潛力。
自然演化在長達(dá)數(shù)十億年的時(shí)間里緩慢塑造了生命的蛋白質(zhì),但蛋白質(zhì)工程的任務(wù)是在極其壓縮的時(shí)間尺度上——幾年內(nèi),甚至借助人工智能(AI)的幫助,可能在幾天內(nèi)——?jiǎng)?chuàng)造出具有特定性質(zhì)的蛋白質(zhì),這顯然并不容易。
傳統(tǒng)的蛋白質(zhì)工程主要有兩條路徑:“定向進(jìn)化”(directed evolution,DE)和“計(jì)算蛋白質(zhì)設(shè)計(jì)”(computational protein design,CPD)。前者獲得了 2018 年諾貝爾獎(jiǎng),它就像“人工加速的自然選擇”,通過反復(fù)隨機(jī)突變和篩選,在實(shí)驗(yàn)室里“養(yǎng)”出好用的蛋白,但過程緩慢、昂貴,且離不開一個(gè)不錯(cuò)的起始蛋白。而后者獲得了 2024 年諾貝爾獎(jiǎng),它則試圖用計(jì)算機(jī)模擬和物理定律,從頭“計(jì)算”出理想的蛋白質(zhì)結(jié)構(gòu),雖然搜索速度快,但依賴的理論模型太過簡化,難以模擬復(fù)雜的生物化學(xué)反應(yīng)。
這兩條路徑真正的挑戰(zhàn)在于,蛋白質(zhì)的可能性實(shí)在太多了。每種蛋白質(zhì)通常由 20 種氨基酸組成,因此,一個(gè)僅由 100 個(gè)氨基酸組成的小型蛋白質(zhì),其可能的序列數(shù)量就高達(dá) 20100 種,這已遠(yuǎn)超宇宙中的原子總數(shù)。在這樣一片浩瀚的、未知的海洋里,如何精準(zhǔn)、高效地找到那條“能完成特定任務(wù)”的稀有序列?
近年來,人工智能(AI)通過實(shí)現(xiàn)對具有所需特性的蛋白質(zhì)在高維序列空間中的更高效搜索,進(jìn)一步推動了蛋白質(zhì)工程的發(fā)展。AI 正在成為這場尋寶之旅的終極“導(dǎo)航系統(tǒng)”和“探測雷達(dá)”,它不僅能繪制地圖,還能指明航線。
近日,國際頂尖學(xué)術(shù)期刊Science上發(fā)表了題為:How artificial intelligence is reengineering protein engineering 的綜述論文,該論文系統(tǒng)闡述了AI如何從根本上改變了蛋白質(zhì)工程這一領(lǐng)域。
![]()
AI 的“煉丹爐”:條件生成模型
當(dāng)有一本記載了自然界所有已知蛋白質(zhì)的“天書”(一個(gè)通用 AI 模型),它描述了蛋白質(zhì)序列的普遍規(guī)律。現(xiàn)在,你想從這本書里,“煉”出一種新的蛋白酶,它需要滿足幾個(gè)特定條件:在 80°C 高溫下依然穩(wěn)定,并且能高效催化某類化學(xué)反應(yīng)。
AI 蛋白質(zhì)設(shè)計(jì)的終極目標(biāo),就是計(jì)算出“在給定一系列設(shè)計(jì)條件(Y)下,一個(gè)蛋白質(zhì)序列(s)出現(xiàn)的概率分布”——即 p(s | y∈Y)。 然后,從這個(gè)概率分布中采樣,就能直接得到符合要求的候選蛋白序列。這就像在“天書”上施加了一個(gè)精確的“過濾咒”和“引導(dǎo)術(shù)”。
![]()
從統(tǒng)計(jì)學(xué)視角看基于人工智能的蛋白質(zhì)工程
這篇綜述論文指出,實(shí)現(xiàn)這個(gè)“咒語”主要有三大策略——
預(yù)設(shè)條件:在訓(xùn)練 AI 模型之初,就把“高溫穩(wěn)定性”、“催化效率”等條件作為“配方”直接“烘焙”進(jìn)模型。這樣做針對性強(qiáng),但每次想要新條件,就得重新“烤”一個(gè)模型,成本高,不靈活。
組合模型:不重新訓(xùn)“天書”,而是給它配上一個(gè)“說明書”——一個(gè)能預(yù)測特定性質(zhì)的 AI 模型。用數(shù)學(xué)方法將兩者結(jié)合,動態(tài)地聚焦于我們關(guān)心的性質(zhì)。這種方法靈活,可以利用最新的數(shù)據(jù)和模型,但計(jì)算上可能更復(fù)雜。“適應(yīng)性條件采樣”(CbAS) 是此策略的代表。
即時(shí)引導(dǎo):不改變模型本身,而是在模型“生成”新序列的每一步,都用“說明書”去實(shí)時(shí)“引導(dǎo)”生成過程,使其偏向滿足條件的序列。擴(kuò)散模型等常用此方法,優(yōu)雅但生成速度可能較慢。
AI “煉丹”實(shí)戰(zhàn):從“骨架”到“血肉”
理論框架之下,AI 在蛋白質(zhì)工程中正以幾種具體方式大展拳腳:
骨架生成:先讓 AI 想象出一個(gè)新的、穩(wěn)定的蛋白質(zhì)骨架結(jié)構(gòu)。例如 RFdiffusion 和Chroma,能從一團(tuán)“噪音”開始,逐漸“雕琢”出全新的、可設(shè)計(jì)的蛋白質(zhì)三維骨架,并可以“即時(shí)引導(dǎo)”其包含特定的功能位點(diǎn)(例如藥物結(jié)合口袋)。
逆折疊:有了骨架,下一步是“填充血肉”。逆折疊模型(例如 ProteinMPNN、ESM-IF1)能根據(jù)給定的骨架結(jié)構(gòu),設(shè)計(jì)出能折疊成這個(gè)形狀的氨基酸序列。這是目前從頭設(shè)計(jì)蛋白質(zhì)流程中的關(guān)鍵一步。
聯(lián)合生成:更前沿的研究試圖讓 AI“一蹴而就”,同時(shí)生成序列和結(jié)構(gòu),甚至直接精確到原子級別。這對于需要精確控制活性位點(diǎn)原子排布的酶設(shè)計(jì),尤為重要。
評分與特征學(xué)習(xí):一些生成模型本身不用于“創(chuàng)造”,而是用作“裁判”或“特征提取器”。它們能判斷一個(gè)給定序列“像不像”一個(gè)天然、穩(wěn)定的好蛋白,或者從序列中提取深層特征,用于預(yù)測其結(jié)構(gòu)或功能。
成就、挑戰(zhàn)與未來
AI 的引入,已帶來實(shí)質(zhì)性的突破。 在蛋白質(zhì)結(jié)合劑設(shè)計(jì)方面,成功率(命中率)從應(yīng)用 AI 前的不到 0.05% 提升到了可觀的百分比級別,使得許多設(shè)計(jì)可以通過微量反應(yīng)板進(jìn)行表征,而非依賴勞動密集型的高通量篩選。
然而,挑戰(zhàn)依然嚴(yán)峻:
數(shù)據(jù)饑渴:設(shè)計(jì)能結(jié)合小分子、DNA/RNA(而不僅僅是另一種蛋白質(zhì))的蛋白,仍然困難,因?yàn)榈鞍踪|(zhì)與這些分子復(fù)合物的結(jié)構(gòu)數(shù)據(jù)稀缺。
柔性難題:目前最成功的模型擅長設(shè)計(jì)由規(guī)則螺旋和折疊片構(gòu)成的、剛性的“小球型”蛋白。但對于像抗體這樣,依賴柔性環(huán)區(qū)進(jìn)行分子識別的蛋白質(zhì),還缺乏通用的強(qiáng)大設(shè)計(jì)工具。
“圣杯”尚遠(yuǎn):酶設(shè)計(jì)可能是最難的高峰,它需要精確到原子級別的活性位點(diǎn)化學(xué)知識。目前,AI 模型多是在已知酶活性位點(diǎn)的基礎(chǔ)上“重塑”其周圍結(jié)構(gòu),還難以從頭設(shè)計(jì)針對全新化學(xué)反應(yīng)的高效催化劑。
評估困境:如何公平地評估和比較不同的 AI 蛋白質(zhì)設(shè)計(jì)方法?濕實(shí)驗(yàn)驗(yàn)證成本高昂,而依賴 AlphaFold 等結(jié)構(gòu)預(yù)測模型又可能偏向于天然蛋白質(zhì)的“舒適區(qū)”,限制了設(shè)計(jì)的創(chuàng)新性。因此,建立包含真實(shí)實(shí)驗(yàn)驗(yàn)證的基準(zhǔn)測試,是推動領(lǐng)域發(fā)展的關(guān)鍵。
結(jié)語
總而言之,人工智能(AI)正在將蛋白質(zhì)工程從一門依賴大量試錯(cuò)和物理近似的“技藝”,轉(zhuǎn)變?yōu)橐环N基于概率模型和數(shù)據(jù)驅(qū)動的、可預(yù)測性更強(qiáng)的“工程科學(xué)”。它通過條件生成模型這一核心思想,統(tǒng)一了搜索與設(shè)計(jì),讓我們得以在蛋白質(zhì)的浩瀚宇宙中進(jìn)行“智能導(dǎo)航”。
盡管在酶設(shè)計(jì)、柔性蛋白設(shè)計(jì)等方面仍面臨“硬骨頭”,且 AI 模型的通用性和評估體系有待完善,但 AI 無疑已為這個(gè)領(lǐng)域裝上了強(qiáng)大的引擎。未來,隨著更多高質(zhì)量數(shù)據(jù)的積累、模型與生物物理原理的更深融合,我們有理由期待,定制具有任何我們所能想象功能的蛋白質(zhì),將不再是遙不可及的夢想。
論文鏈接:
https://www.science.org/doi/10.1126/science.aec8444
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.