<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      用第一性原理超越AlphaFold:告別蛋白質工程的「碰運氣」時代

      0
      分享至


      真正的突破在于讓模型學會"舉一反三",在3-4個突變位點的平衡木上演繹生命的無限可能。

      作者丨岑峰

      2026年1月9日,“第四屆合成生物學及生物制造大會”在深圳光明隆重召開。在“AI生物制造專場”上,華南理工大學生物科學與工程學院院長助理楊曉鋒副教授做了題為《AI時代下的蛋白質設計與制造》的主旨演講。

      蛋白質作為生命的物質基礎,其工程化改造不僅支撐著生物醫藥、化妝品等千億級產業,更是生物制造的核心競爭點。在楊曉鋒教授看來,AI for Science(AI4S)的興起,正在從根本上重塑蛋白質從“序列設計”到“工業智造”的全生命周期。

      楊曉鋒在報告中深刻闡述了蛋白質工程的“第一性原理”:序列決定結構,結構決定功能。在AI時代,這一經典理論被賦予了全新的數字化內涵。AI4S的本質,是將生物物理法則與海量數據結合,構建可計算的統計模型。然而,楊曉鋒敏銳地指出,蛋白質設計并非類似于人臉識別技術的簡單遷移。相較于圖像識別中維度的相近,AI4S的技術困境在于生物大分子的有限采樣數據與近乎無限的序列空間之間存在著巨大的維度鴻溝。這種“維度不匹配”和對生物功能“高度精確”的要求,使得蛋白質AI設計成為了AI4S領域最具挑戰性的高峰。

      報告的核心看點在于對“外推能力(Extrapolation)”的深入探討。楊曉鋒認為,真正的AI4S不應僅停留于對已知數據分布的“內推”預測,而必須具備跨越稀疏分布、探索認知盲區的能力。通過借鑒大語言模型的邏輯,利用數十億條天然序列進行無監督預訓練,模型得以掌握生命的“語法”,結合少量實驗數據的有監督學習,從而實現在從未見過的復雜突變組合中精準推演。這種從“內向歸納”向“外向演繹”的范式轉變,正是AI驅動科研發現的核心價值所在。

      除了算法層面的攻堅,楊曉鋒還展示了AI4S如何向下延伸至“制造”端。他提出了一種極具工程智慧的方案:可切割自聚集標簽法。這種設計能夠讓目標蛋白在表達后自聚集沉淀,與其他蛋白有效分離,從而繞過高昂的工業純化工藝。更重要的是,這種簡化的制造流程為AI研發提供了極高通量的實驗反饋,構建起了“設計-制造-測試”的高速閉環。這種數據與實驗的量級加速,生動詮釋了AI4S如何打破傳統研發的效率天花板。

      楊曉鋒總結道,蛋白質設計正從“偶然發現”跨越到“必然創造”。無論是解析深海未知蛋白,還是定向進化高性能酶,AI4S都將作為底層引擎,推動生物制造走向更加精準、高效的未來。

      以下為楊曉鋒在“第四屆合成生物學及生物制造大會”上的演講實錄,限于篇幅,AI科技評論進行了不修改原意的編輯:


      人工智能時代下蛋白質的設計與制造

      演講人:華南理工大學生物科學與工程學院院長助理楊曉峰

      非常感謝大會的邀請,讓我有機會在這里與大家分享關于蛋白質設計與制造的一些思考。剛剛,張總、李總已經對蛋白質、酶的特性以及人工智能(AI)在其中的應用做了非常精彩的報告,這為我接下來詳細探討人工智能時代下蛋白質的設計與制造奠定了良好的基礎。

      當我們談論蛋白質時,從廣義上講,它可以涵蓋多肽、酶、抗體等。蛋白質領域有一個非常顯著的特點,那就是其巨大的商業價值和產業帶動能力。序列與功能之間存在著極其緊密的關聯,往往一個獨特的多肽序列、一種高效的酶或是一個精準的抗體,就足以支撐起一個百億美金甚至千億美金規模的巨大產業。在該領域中,氨基酸序列排列組合產生的可能性是無窮無盡的,可衍生出了無數不同細分的專業領域,這正是蛋白質領域最吸引人、也最具挑戰性的魅力所在。

      目前,我國在蛋白質及其相關產業方面投入了巨大力量,特別是在廣東地區。廣東省作為國內化妝品、生物醫藥產業的大省。這些產品中,很大一部分涉及到多肽和蛋白活性成分,因此如何更好地完成蛋白質的設計與生產,對于支撐地區經濟和相關產業鏈具有舉足輕重的作用。今天,我的分享主要圍繞兩點:第一是“創造”,即如何設計出高性能的蛋白質;第二是“制造”,即如何通過生物制造的手段將設計出的高性能蛋白質生產出來。

      在深入技術細節之前,我想先探討一下這背后的底層邏輯。我們都知道,埃隆·馬斯克曾多次強調“第一性原理”(First Principles),這種思維方式顛覆了許多傳統觀念。例如,在航天領域,傳統認知認為火箭必須使用極致輕量化、高強度但非常昂貴的復合材料,但馬斯克回歸到材料成本與物理性能的最根本邏輯,提出了使用不銹鋼制造火箭的可能性,并創建了SpaceX實現了出來。蛋白質科學同樣遵循其獨特的第一性原理,這便是由Anfinsen提出的著名理論:蛋白質的氨基酸序列決定了其三維結構,而結構進一步決定了其生物學功能。這個邏輯鏈條意味著,只要我們掌握了一個明確的序列,它在生理條件下理論上對應著唯一確定的結構,即可知其具體的生物學功能。但如果要用傳統的計算方法去窮舉和模擬這個過程,其計算量巨大到幾乎無法實現,但這種序列與結構之間確定的對應關系,為AI算法的介入提供了可能。

      在當前的AI時代,蛋白質的研究可以分為兩個維度:正向的“預測”與反向的“設計”。預測是指從已知的序列出發,推測其結構與功能;而設計則是根據我們預設的功能或目標結構,去反向尋找能夠實現該目標的氨基酸序列。在人工智能大規模應用之前,科學家們主要通過理性設計、從頭設計以及定向進化等傳統方法來改良蛋白質。然而,隨著深度學習技術的橫空出世,整個領域發生了范式遷移。

      AI在生物學中的應用,很大程度上受益于計算機視覺和圖像識別領域的發展。圖像識別的邏輯在于通過海量數據訓練模型,使模型學習到某種特征分布,進而預測未知物。蛋白質設計同樣需要利用已知數據進行訓練,但它面臨著比圖像識別更為嚴峻的科學挑戰。

      這就是很多人問的:為什么人臉識別已經可以做到如此精準和高效,而蛋白質的AI設計依然困難重重?其根本原因在于維度的不匹配。因為,AI的核心邏輯是無限地模擬和逼近已有數據的統計分布,如果訓練集的質量越高、分布越廣,我們預測的可能性就越能聚焦于真實的功能區間。在圖像識別中,采集數據與預測目標的數據分布相近,特征空間相對閉合。但在生物學領域,訓練集的采樣量與我們需要預測的龐大序列空間之間存在著巨大的鴻溝。更重要的一點在于,在設計或生成的任務上,圖像生成允許一定程度的“模糊”或“似是而非”,只要看起來像即可;而生物學設計則要求有絕對的“功能性”。一個AI生成的圖片,即使細節有誤,人們或許仍能辨認出其主體;但一個蛋白質序列,哪怕只有一個關鍵位點的氨基酸發生錯誤,其空間構型就可能崩塌,導致功能完全喪失。

      事實上,我們可以看到,現有的生成式模型在處理復雜邏輯時仍會表現出局限性。例如,某些AI在生成動物圖像時,可能會給螞蟻畫出四只腳,因為它學習到的訓練分布中大部分陸生動物都是四只腳。這種錯誤在圖像中或許只是笑談,但在蛋白質設計中則是致命的。

      以蛋白質結構預測為例, AlphaFold系列模型的橫空出世,利用深度學習模型實現了蛋白質結構預測的跨越式進展。然而,我們必須清醒地意識到,這類模型本質上仍是基于“見過”的數據進行歸納。前不久,我與南海海洋研究所的同行溝通時發現,AlphaFold對于很多海洋生物的蛋白質結構預測往往會“失效”??偨Y來講,AI的強大之處在于它能極度精準地推算訓練分布范圍內的可能性,但它對于分布之外的新奇生命形式,依然缺乏真正的創造力。這也正是我們在蛋白質設計與制造過程中,需要不斷探索和突破的邊界。

      除了序列空間龐大的問題,在蛋白質設計過程中,我們必須高度關注所謂的“上位效應”( epistasis)。這就像下圍棋一樣,每一步棋的選擇都不是孤立的:你下第一步可能是好棋,第二步看起來也不錯,但有可能到了第三步,整個布局可能就崩了,導致最終的失敗。在當前的技術背景下,如果我們只是追求局部的步步優化,往往會出現“連步皆好、全局皆輸”的窘局。這種現象反映在算法上,就是預測與設計的收斂速度問題。在傳統的蛋白質工程中,我們通常采用經典的“爬坡法”進行定向進化,通過不斷的突變與篩選試圖達到功能的頂峰。然而,這種緩慢的爬坡過程極其容易讓研究陷入“局部最優解”的陷阱。當你認為已經找到了最好的序列時,實際上你可能只是被困在了某個低矮的山頭,而真正的珠穆朗瑪峰可能就在不遠處,但由于算法無法突破當前的局部邏輯,你永遠無法看到它。

      因此,當我們利用AI去介入蛋白質設計時,要從底層架構上設法突破這種局部最優的限制。在具體的蛋白質設計案例中,目前主要存在兩種主流的技術范式。一種是理性的直接生成模式,比如劉海燕老師團隊的工作,通過建立能量分布模型,連續、廣泛地搜索主鏈結構空間,自動產生“高可設計性”主鏈,從而生成蛋白。當然,還有David Baker團隊利用擴散模型(RFDiffusion)等生成式AI技術。

      另一種是以定向進化為基礎。針對剛才提到的“爬坡法”陷入局部最優的問題,清華大學的張樹一老師團隊提出了很有啟發性的思路。他們將蛋白質長序列切割成若干個功能片段,并在每個片段上尋找最優的構象與序列組合。這種方法引入了的概念叫:蛋白質序列-功能空間壓縮,進行有效的空間壓縮與特征重組,避免了整體序列在優化過程中過快地陷入局部最優。

      歸根結底,AI在蛋白質設計領域的成敗,極大地取決于:

      (1)數據的質量與多樣性。你輸入什么樣的數據去訓練,決定了模型最終的視野。如果你只是盲目地將一批未經清洗或缺乏標注的數據灌入模型,往往無法得到理想的反饋。在AI發展史上,斯坦福大學的李飛飛教授建立的ImageNet數據集,直接推動了人工智能、計算機視覺領域的突飛猛進。ImageNet不僅提供了海量的圖像,更重要的是提供了高質量的人工標注。這充分證實了:拿到高質量的、更全面的、具有明確功能標注的生物數據是何等重要。

      (2)先進而恰當的模型。目前,我們很多從事生物學研究的人員面臨著一個現實的困境,那就是計算資源缺乏。作為一個科研實驗室,我們不可能擁有大廠或頂級科技公司那樣龐大的算力資源,進行數千億參數規模的超大規模訓練。在這種情況下,我們是應該追求大模型,還是應該追求“恰當的模型”?從目前的文獻中可以看到,很多成功的案例往往并沒采用超大模型,而是選用了參數規模適中、結構設計精巧的模型,針對特定的科學任務進行深度優化。我們也許不需要為了設計一個蛋白去運行一個上百億參數的通用模型,而是應該在算力可控的范圍內,針對特定的理化特征和功能需求進行精細化建模。

      (3)充分考慮外推能力的問題。蛋白質序列的已知空間與其理論上存在的巨大空間相比,分布是極其稀疏的。我們必須思考如何通過創新的算法、框架與路徑跳出這種稀疏分布的限制,實現從“內推”到“外推”的跨越,尋找那些處于人類認知盲區但符合生物物理法則的高維功能區。

      我們實驗室,也開展了AI應用于蛋白質預測與設計的研究。其中,在蛋白質預測上,我們解決的是:如何從海量的宏基因組數據中精準地挖掘出具有特定功能的序列。我們選定的目標是從人體微生物組(Microbiome)數據中尋找具有特定抗菌活性的蛋白,lysin。由此,我們建立了一個融合了序列特征和理化特征的深度學習架構DeepMineLys。這個模型的邏輯在于:首先,有一個覆蓋全面,高質量的訓練數據集,即是要盡量地擴大訓練數據所能覆蓋的空間;(2)我們不僅從序列的“語言模式”角度進行語義捕捉,還引入了蛋白質的電荷分布、疏水性等物理化學維度。這種多維度的特征融合,極大地加強了模型對相似序列之間細微功能差別的識別能力。(3)我們采用相似度低于60%的模型沒見過的獨立測試集要評估,對判斷其外推能力。這個模型在我們實驗室小型的服務器上就能高效運行,測試結果非常令人振奮:我們挖掘出的一些高活性的溶菌酶,成功率在70%左右,有的甚至比標準的雞蛋清溶菌酶高出五六倍。目前,我們的研究已經迭代到了第二代模型,其預測精度和功能覆蓋率達到了更高的水平。

      接下來,我想通過第二個案例來聊聊如何將AI應用于蛋白質的定向進化。對于蛋白質設計,我們課題組目前主要沿著定向進化的路線進行思考,并開發了一套分層訓練、迭代進化的模型DeepDE。這個模型的邏輯是:首先在大規模通用數據集上訓練獲得基礎模型,接著將其遷移到蛋白質家族的性能訓練上,最后再到目標蛋白突變體的真實數據上。就像對于人臉,先是“全球人群”的訓練,再到“中國人群”的訓練,最后是針對具體的“深圳人群”。在實際操作中,我們利用大約一千個實驗數據點作為最后的有監督學習,這在一般的實驗室通量中是比較合理的規模。

      為了驗證模型是否具備真正的“外推能力”(Extrapolation),我們在訓練設計上特意制造了信息差。具體而言,我們只給模型提供包含一個或兩個突變位點的數據進行訓練,而在測試環節,則要求模型預測三突變的性能。這是一個極具挑戰性的任務,因為模型必須在從未見過三點突變組合的情況下,通過邏輯推演給出準確預測。實驗結果顯示,對于這些從未見過的復雜突變組合,我們的模型的預測相關性達到了0.7左右。在蛋白質蕘中,能對這種分布外的數據達到0.7的相關性,已經證明模型具備了超越簡單統計模擬的深度理解能力。通過這種迭代,我們僅用了四輪實驗,就拿到了性能遠超目前所有綠色熒光蛋白亮度的突變體。

      這里需要強調的是,我們所追求的“外推能力”是AI驅動蛋白質設計的核心競爭力。現在很多所謂的蛋白質設計僅僅是“內推”,即在已知的分布內尋找最優值,這往往只能得到一些性能略有提升但缺乏突破性的結果。而在探索這些尚未觸及的高維空間時,將突變范圍控制在3到4個位點之間,可能是目前AI輔助定向進化中一個比較平衡且高效的范圍。

      當我們完成了蛋白質的設計,下一個挑戰便是如何將其制造出來。眾所周知,蛋白質的表達與純化是一個極具挑戰性的過程。無論采用大腸桿菌、酵母還是其他細胞體系,在實驗室里通過層析柱進行小量純化是可行的,但在工業化大規模生產中,層析柱的高昂成本和復雜工藝往往成為瓶頸。

      基于此,我們從“工程邏輯”角度出發提出了一種新思路。既然蛋白質在某些情況下會自動聚集形成有活性的包涵體,那么我們能否用于蛋白純化上?由此,我們開發了cSAT技術,讓目標蛋白在表達時自組裝成聚集體,沉淀出來。隨后,我們只需要通過簡單的離心,就能獲得高純度的蛋白沉淀,再通過一段可切割的標簽將目標蛋白釋放出來。這種方法避免了高成本而繁瑣的柱層析,極大簡化了工藝。

      這種制造方式的意義不僅在于降低成本,更在于其與AI研發的完美契合。我們可以將其放入自動化的孔板中進行高通量操作。這意味著AI生成的大量設計序列可以被快速、廉價地轉化為實驗數據,從而反哺模型,加速蛋白質設計迭代。

      總結來說,我們提供的思路涵蓋了從新蛋白的挖掘到算法驅動的定向進化,再到工業化標簽純化的完整方案。接下來,無論是產生高質量的數據,還是進行高通量的驗證,核心都在于通過AI與自動化實驗的深度融合,回到“第一性原理”與“工程邏輯”。

      最后,感謝我們團隊的努力和相關基金的支持!感謝本次大會,感謝大家!

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      愛下廚的阿釃
      2026-02-06 17:10:03
      中國農業銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      中國農業銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      澎湃新聞
      2026-02-06 15:45:06
      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      鍵侃籃球
      2026-02-07 02:19:56
      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農

      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農

      忠于法紀
      2026-01-15 22:08:28
      成功了!中國向世界宣布重大科技成果

      成功了!中國向世界宣布重大科技成果

      元爸體育
      2026-02-04 16:44:45
      第一批獨生子女的扎心現實:父母去世后,成了舉目無親的“孤兒”

      第一批獨生子女的扎心現實:父母去世后,成了舉目無親的“孤兒”

      千秋文化
      2026-02-01 20:31:47
      第三次世界大戰導火索如果中國攔截了美國的

      第三次世界大戰導火索如果中國攔截了美國的

      林子說事
      2026-02-07 00:57:11
      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      我心縱橫天地間
      2026-02-05 19:14:54
      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      福建平子
      2026-01-28 10:52:25
      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      懂球帝
      2026-02-07 01:04:18
      11歲玥兒罕見穿黑衣現身,眼神哀傷克制:她其實什么都懂

      11歲玥兒罕見穿黑衣現身,眼神哀傷克制:她其實什么都懂

      橙星文娛
      2026-02-05 17:06:04
      逆行救出51人的劉海洋轉院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      逆行救出51人的劉海洋轉院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      瀟湘晨報
      2026-02-06 14:57:30
      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      午夜搭車a
      2026-02-07 02:23:47
      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協”

      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協”

      夜深愛雜談
      2026-02-06 17:37:17
      大反轉!向嫣然醫院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      大反轉!向嫣然醫院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      小娛樂悠悠
      2026-02-06 09:09:39
      樊振東球隊三天內三位實力隊友接連宣布離隊,冠軍陣容解體。

      樊振東球隊三天內三位實力隊友接連宣布離隊,冠軍陣容解體。

      章民解說體育
      2026-02-06 04:33:53
      正式復出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰萊巴金娜

      正式復出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰萊巴金娜

      大秦壁虎白話體育
      2026-02-06 20:51:54
      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當不成了?

      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當不成了?

      燦若銀爛
      2026-02-07 03:20:27
      中央定調,延遲退休實施后,每晚1年退休,養老金能增加6%嗎?

      中央定調,延遲退休實施后,每晚1年退休,養老金能增加6%嗎?

      另子維愛讀史
      2026-02-05 17:45:59
      戲子誤國!離春節不到20天,4位明星相繼塌房,一個比一個荒唐

      戲子誤國!離春節不到20天,4位明星相繼塌房,一個比一個荒唐

      往史過眼云煙
      2026-02-06 16:40:38
      2026-02-07 04:16:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7071文章數 20728關注度
      往期回顧 全部

      科技要聞

      獨角獸版圖巨變:SpaceX奔萬億 中美差在哪

      頭條要聞

      電動車行業"老三"沖刺上市 分股東2億克扣員工社保3億

      頭條要聞

      電動車行業"老三"沖刺上市 分股東2億克扣員工社保3億

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜搶C風波 楊冪工作室9字討說法

      財經要聞

      愛爾眼科董事長旗下7家精神病院騙保

      汽車要聞

      寶馬"本命年"關鍵詞:20款新車與"新世代"耐力賽

      態度原創

      教育
      數碼
      健康
      房產
      軍事航空

      教育要聞

      為什么留學機構沒有好的老師?

      數碼要聞

      零刻SER10 Max迷你主機上市:AI 9 HX 470,0+0款4499元

      轉頭就暈的耳石癥,能開車上班嗎?

      房產要聞

      新春三亞置業,看過這個熱盤再說!

      軍事要聞

      美國“肯尼迪”號核動力航母完成首次海試

      無障礙瀏覽 進入關懷版