![]()
南方人為什么比北方人更容易得地中海貧血,因為幾十年前肆虐的瘧疾導致了南方人某個基因的突變。如何既快又準找到它,是擺在生物學家面前的難題。
為了解決諸如此類的問題,一群最懂基因測序、擁有海量數據的人,和一群最懂AI的科學家們在一起,花6個月時間做出了全球首個百億級人類基因組基礎模型Genos。
之江實驗室總工程師趙志峰把他們稱為“硬盤俠”和“鍵盤俠”:前者負責篩選并且把裝有專業數據的硬盤背到實驗室,交給后者,那些敲代碼敲到腰椎間盤突出的年輕科學家。
昨天,他們坐在一起,發布了一個叫021的科學基礎模型,希望在地球科學、天文學、生命科學、材料科學等多個領域加速科學發現、變革科研范式,成為科學家們手里的最強“外掛”。
所謂的021,實際上是英文zero to one(從0到1)的簡寫。光從名字看,就包含了變革的意義。按照中國工程院院士、之江實驗室主任王堅的說法,“如果基礎模型是人工智能的皇冠,那么科學基礎模型就是人工智能皇冠上的明珠。”
![]()
中國工程院院士、之江實驗室主任王堅
![]()
全球首個
百億級人類基因組基礎模型
7個月前,在杭州華大的一間小會議室里,包括華大生命科學研究院領域首席科學家 劉石平 和之江實驗室總工程師趙志峰在內的幾個人,坐下來喝了一杯咖啡。在這一杯咖啡的時間里,他們就討論了一個問題:生命科學是非常大的一門科學,從哪里開始?最后指向一個答案:“讀懂”基因。
200多年前,奧匈帝國人孟德爾在奧古斯丁修道院的小花園里,通過豌豆實驗首次提出遺傳因子概念,2000年左右,人類完成了基因組全部30億個堿基對的測序。即便如此,目前人類超過90%的基因組功能尚未明確,70%以上的致病點位仍未被定位。
在喝完咖啡的一周后,一個以基因模型訓練為目標的“種子班”在之江實驗室正式啟動, 劉石平 是種子班的班主任。
![]()
劉石平
從5月份開始,華大研究院從杭州、北京、深圳、武漢等地陸續抽調精英團隊進駐之江實驗室,每天和那里的科學家們同吃同住。他們想解決同一個問題:如何將這30億堿基對放進模型里。
“牽一發而動全身。” 劉石平 說,基因組的語言極其復雜,一個微小的單堿基突變,原因可能藏在百萬堿基對之外。
比如,科學家花了很久才發現,南方人患地中海貧血概率比北方人高的原因:幾十年南方瘧疾橫行,南方人為了抵抗瘧疾、適應環境,基因的某些點位發生了一些突變。雖然這些基因突變提高了南方人抵抗瘧疾的能力,但反過來也帶來了一些副作用,比如導致血紅蛋白運輸氧氣的能力減弱,從而導致地中海貧血或其他血紅蛋白病。
“鍵盤俠”和“硬盤俠”一起奮戰6個月后,全球首個百億級人類基因組基礎模型Genos誕生了。這個針對人類基因組深度優化的基因組基礎模型,可支持高達百萬堿基對的超長上下文分析,并實現單堿基分辨率的精準識別。
最近,之江實驗室生命科學計算研究中心研究專家郭玲分享了一個模型的實用案例,曾經在做基因序列的時候,發現在6號染色體上有一個高頻突變,但遺傳病理查不到相關信息,最后,她把數據放到了Genos里,模型給出了三個癥狀預測,得到了醫生的高度認可。
![]()
AI照亮基礎科學研究進階之路
去年,諾貝爾化學獎和物理學獎的獲得者里都出現了人工智能專家的身影。其中,化學獎一半授予大衛·貝克,以表彰他在計算蛋白質設計方面的貢獻;另一半授予德米斯·哈薩比斯和約翰·M·詹珀,以表彰他們在蛋白質結構預測方面的成就。
![]()
德米斯和約翰所在的公司,正是大名鼎鼎的DeepMind,前者更是聯合創始人兼CEO。在他主導下,AlphaGo橫空出世,將最頂尖的人類棋手斬于馬下。隨后,他們將AlphaGo的相關技術運用到生物醫學研究,推出了可以預測蛋白質結構的AI模型AlphaFold。
蛋白質是構成生命活動的基礎物質,參與生命體幾乎所有生理功能的調節與維持。蛋白質的功能和它的三維結構息息相關,和基因一樣,人類對蛋白質的結構了解越多就越能解開生命的密碼。
![]()
AlphaFold生成的蛋白質結構
不過,在AlphaFold出現之前,人類想要還原一個蛋白質結構需要花費大量時間和資源。截至2018年,人類才積累了22萬蛋白結構。而AlphaFold用三年時間就生成了六七億個。
從AlphaFold2開始計算,過去五年,AI已經成為從事蛋白質研究的生物學家不可或缺的工具,甚至被稱為“結構生物學的第二次降臨”。
諾貝爾化學獎的另一位得主,大衛·貝克就是其中一員。他是華盛頓大學蛋白質設計研究所所長,和團隊首次使用生成式人工智能從頭設計出了全新的抗體,有望讓AI從頭設計蛋白進入抗體藥物市場。
諾貝爾獎的結果也說明,全世界最聰明的一群人認可了用AI對其他領域基礎科學研究范式的改變,即當下人工智能的發展已經使得AI for Science(AI4S)變得可行。科學家們借助機器學習、數據分析、高性能計算等技術,能在各個領域進行更深入的探索和發現。
隨之而來的問題是,如何讓AI4S在多個科學領域高效地展開?畢竟,AlphaFold3將蛋白質序列、DNA/RNA堿基序列以及小分子結構等,破天荒用Token統一編碼放到一個模型里,前后花了6年時間。而它對于科學家的賦能仍局限于生物化學分子這一細分領域,遠未能覆蓋生命科學這一學科。
之江實驗室要做的是,把生命科學在內的數學、物理、化學、天文學、地球科學和材料學等多個不同學科、不同類型的科學數據訓練到一個基礎模型里,工作量和困難比當年訓練AlphaFold3指數級增加。
![]()
![]()
打造科學家們的超級“外掛”
“語言所表達的維度,遠遠低于科學所需表達的維度。”之江實驗室科學模型總體部技術總師薛貴榮說,科學數據涵蓋時間、空間、能量等多個維度,是對復雜物理系統演變規律的高維表征。
比如,地球科學中超過75%的信息存儲于聲波、磁場等非文本數據中;天文學依賴圖像、光譜來解析宇宙結構與演化;生命科學的奧秘深藏于如人類基因組30億堿基對等DNA序列中……
這也意味著,解決科學問題,眼前最緊迫的是,突破語言空間的局限,構建一個集“科學空間+語言空間”于一體的更高維空間,建立跨學科數據之間的深層連接,變革科學研究范式。
![]()
在技術上,之江實驗室的研發團隊探索構建了全新的OneTokenizer(科學數據統一表征) + MoE(混合專家架構)融合模型架構。
為了讓模型能夠識別、處理科學數據,認識并解決復雜科學問題。他們經過了近萬次實驗形成了模型訓練框架,并完成了2360億參數規模021科學基礎模型的訓練。最后,一個跨學科知識、跨領域推理、跨語言理解(覆蓋204種語言),具備出色的科學推理能力,能夠深入分析、推導、驗證多類科學問題的科學基礎模型誕生了。
有了021科學基礎模型,對科學研究來說意味著什么?
021模型更像是科學家們打破學科邊界的一個超級“外掛”。薛貴榮演示了一個簡單的例子:一個反應里面涉及5種化合物,包含反應物、溶劑、助劑和催化劑,如何預測這些化合物相互作用能生成什么物質?
通過實驗進行高通量篩選,通常需要數月乃至一年的周期,現在通過021科學基礎模型可以在數分鐘內完成產物的預測,大幅提速。
![]()
“這是我見過最漂亮的一朵花!”
在進化到AlphaFold3之后,AI不僅可以回答和預測,還具備了“創造力”。比如,合成新型材料蛋白,生成更多AI-結構模型,開啟藥物發現的新階段。
浙大城市學院先進材料增材制造創新研究中心主任湯慧萍就見過AI的“非凡創造力”。
在之江實驗室,她帶領著另外一群“硬盤俠”和實驗室的科學家們組成了一支攻堅隊,他們的主線任務是構建一個多孔材料逆向生成模型。
![]()
湯慧萍
大自然孕育了無數神奇而有用的多孔材料,比如王蓮、珊瑚、骨骼、竹子,布滿了1厘米以下的孔。這么多復雜的孔構型,是天工造物,突破了人類的想象。
那有沒有可能找到一個合適的孔構型可以用在不同的領域?
和 劉石平 不同的是,湯慧萍與之江實驗室迸發出火花是在兩年前。在云棲小鎮的一次會議上,湯慧萍遇到了王堅,當時湯慧萍和王堅聊起了多孔材料,整場聽下來王堅就記住了幾個字——“設計空間巨大”。
“那就可以用人工智能來做。”王堅對湯慧萍說。
這是一場跨學科的大作戰。70多個人的團隊,涉及材料、機械、力學、計算機、數學等多種學科。要訓練一個模型,至少需要一個百萬級的數據庫。“但現有的數據很少,實驗數據又太慢。”湯慧萍說。
于是,團隊決定自己生產數據。怎么生產數據,一開始也是蒙的,有兩三個月時間,一群年輕人坐在一起無從下手。后來找到了數學這個破題的關鍵,通過參數化建模方法和自研仿真算法,僅用3個月就生產了200多萬孔結構-力學性能數據。
如果用傳統的仿真方法,要花上57年時間。
一個叫OnePorous的模型應運而生,專注于多孔合金材料的設計與研發。其核心功能是通過逆向設計方法,直接生成滿足目標性能的多孔胞元,減少了傳統正向設計需不斷試錯迭代的耗時。
團隊為3D打印衛星設計的胞元,就是從AI生成的200多萬個胞元結構中選出來的。看到那個胞元的瞬間,這位多孔材料和增材制造領域的科學家激動地說:“這是我見過最漂亮的一朵花!”
![]()
從AI生成的200多萬個胞元結構中選出來的3618胞元
![]()
3618胞元構成的多孔結構
目前,這個胞元結構已經用于衛星主體結構制造,這也意味著,之江實驗室與浙大城市學院的跨學科團隊完成了從AI設計到3D打印制造的全鏈路創新。
除了材料科學模型OnePorous,目前021模型已服務地球科學、天文學、生命科學等多個領域。
比如天文領域模型OneAstronomy,將光譜、光變、圖像等不同模態的天文數據映射至統一表征空間,實現跨模態融合推理,重構數據處理范式。通過OneAstronomy,望遠鏡學會了自主觀測。
人類百億級基因組基礎模型Genos在致病性突變識別任務上實現了98.3%的準確率。
今年4月面向全球開放使用的地學領域模型GeoGPT,經過不斷迭代升級,其中GeoGPT-VL支持圖像描述總結、圖像信息提取、地理空間推理、地學分析推理四類典型任務,實現從“讀圖”到專業推理的跨越。
文 | 沈積慧 梁應杰
VIEW MORE
@下次再“箭”>>
@蔡崇信:中美AI競爭中中國有四大底牌>>
@釘釘副總裁創業>>
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.