![]()
南方人為什么比北方人更容易得地中海貧血,因為幾十年前肆虐的瘧疾導(dǎo)致了南方人某個基因的突變。如何既快又準(zhǔn)找到它,是擺在生物學(xué)家面前的難題。
為了解決諸如此類的問題,一群最懂基因測序、擁有海量數(shù)據(jù)的人,和一群最懂AI的科學(xué)家們在一起,花6個月時間做出了全球首個百億級人類基因組基礎(chǔ)模型Genos。
之江實驗室總工程師趙志峰把他們稱為“硬盤俠”和“鍵盤俠”:前者負(fù)責(zé)篩選并且把裝有專業(yè)數(shù)據(jù)的硬盤背到實驗室,交給后者,那些敲代碼敲到腰椎間盤突出的年輕科學(xué)家。
昨天,他們坐在一起,發(fā)布了一個叫021的科學(xué)基礎(chǔ)模型,希望在地球科學(xué)、天文學(xué)、生命科學(xué)、材料科學(xué)等多個領(lǐng)域加速科學(xué)發(fā)現(xiàn)、變革科研范式,成為科學(xué)家們手里的最強“外掛”。
所謂的021,實際上是英文zero to one(從0到1)的簡寫。光從名字看,就包含了變革的意義。按照中國工程院院士、之江實驗室主任王堅的說法,“如果基礎(chǔ)模型是人工智能的皇冠,那么科學(xué)基礎(chǔ)模型就是人工智能皇冠上的明珠。”
![]()
中國工程院院士、之江實驗室主任王堅
![]()
全球首個
百億級人類基因組基礎(chǔ)模型
7個月前,在杭州華大的一間小會議室里,包括華大生命科學(xué)研究院領(lǐng)域首席科學(xué)家 劉石平 和之江實驗室總工程師趙志峰在內(nèi)的幾個人,坐下來喝了一杯咖啡。在這一杯咖啡的時間里,他們就討論了一個問題:生命科學(xué)是非常大的一門科學(xué),從哪里開始?最后指向一個答案:“讀懂”基因。
200多年前,奧匈帝國人孟德爾在奧古斯丁修道院的小花園里,通過豌豆實驗首次提出遺傳因子概念,2000年左右,人類完成了基因組全部30億個堿基對的測序。即便如此,目前人類超過90%的基因組功能尚未明確,70%以上的致病點位仍未被定位。
在喝完咖啡的一周后,一個以基因模型訓(xùn)練為目標(biāo)的“種子班”在之江實驗室正式啟動, 劉石平 是種子班的班主任。
![]()
劉石平
從5月份開始,華大研究院從杭州、北京、深圳、武漢等地陸續(xù)抽調(diào)精英團隊進駐之江實驗室,每天和那里的科學(xué)家們同吃同住。他們想解決同一個問題:如何將這30億堿基對放進模型里。
“牽一發(fā)而動全身。” 劉石平 說,基因組的語言極其復(fù)雜,一個微小的單堿基突變,原因可能藏在百萬堿基對之外。
比如,科學(xué)家花了很久才發(fā)現(xiàn),南方人患地中海貧血概率比北方人高的原因:幾十年南方瘧疾橫行,南方人為了抵抗瘧疾、適應(yīng)環(huán)境,基因的某些點位發(fā)生了一些突變。雖然這些基因突變提高了南方人抵抗瘧疾的能力,但反過來也帶來了一些副作用,比如導(dǎo)致血紅蛋白運輸氧氣的能力減弱,從而導(dǎo)致地中海貧血或其他血紅蛋白病。
“鍵盤俠”和“硬盤俠”一起奮戰(zhàn)6個月后,全球首個百億級人類基因組基礎(chǔ)模型Genos誕生了。這個針對人類基因組深度優(yōu)化的基因組基礎(chǔ)模型,可支持高達百萬堿基對的超長上下文分析,并實現(xiàn)單堿基分辨率的精準(zhǔn)識別。
最近,之江實驗室生命科學(xué)計算研究中心研究專家郭玲分享了一個模型的實用案例,曾經(jīng)在做基因序列的時候,發(fā)現(xiàn)在6號染色體上有一個高頻突變,但遺傳病理查不到相關(guān)信息,最后,她把數(shù)據(jù)放到了Genos里,模型給出了三個癥狀預(yù)測,得到了醫(yī)生的高度認(rèn)可。
![]()
AI照亮基礎(chǔ)科學(xué)研究進階之路
去年,諾貝爾化學(xué)獎和物理學(xué)獎的獲得者里都出現(xiàn)了人工智能專家的身影。其中,化學(xué)獎一半授予大衛(wèi)·貝克,以表彰他在計算蛋白質(zhì)設(shè)計方面的貢獻;另一半授予德米斯·哈薩比斯和約翰·M·詹珀,以表彰他們在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的成就。
![]()
德米斯和約翰所在的公司,正是大名鼎鼎的DeepMind,前者更是聯(lián)合創(chuàng)始人兼CEO。在他主導(dǎo)下,AlphaGo橫空出世,將最頂尖的人類棋手?jǐn)赜隈R下。隨后,他們將AlphaGo的相關(guān)技術(shù)運用到生物醫(yī)學(xué)研究,推出了可以預(yù)測蛋白質(zhì)結(jié)構(gòu)的AI模型AlphaFold。
蛋白質(zhì)是構(gòu)成生命活動的基礎(chǔ)物質(zhì),參與生命體幾乎所有生理功能的調(diào)節(jié)與維持。蛋白質(zhì)的功能和它的三維結(jié)構(gòu)息息相關(guān),和基因一樣,人類對蛋白質(zhì)的結(jié)構(gòu)了解越多就越能解開生命的密碼。
![]()
AlphaFold生成的蛋白質(zhì)結(jié)構(gòu)
不過,在AlphaFold出現(xiàn)之前,人類想要還原一個蛋白質(zhì)結(jié)構(gòu)需要花費大量時間和資源。截至2018年,人類才積累了22萬蛋白結(jié)構(gòu)。而AlphaFold用三年時間就生成了六七億個。
從AlphaFold2開始計算,過去五年,AI已經(jīng)成為從事蛋白質(zhì)研究的生物學(xué)家不可或缺的工具,甚至被稱為“結(jié)構(gòu)生物學(xué)的第二次降臨”。
諾貝爾化學(xué)獎的另一位得主,大衛(wèi)·貝克就是其中一員。他是華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所所長,和團隊首次使用生成式人工智能從頭設(shè)計出了全新的抗體,有望讓AI從頭設(shè)計蛋白進入抗體藥物市場。
諾貝爾獎的結(jié)果也說明,全世界最聰明的一群人認(rèn)可了用AI對其他領(lǐng)域基礎(chǔ)科學(xué)研究范式的改變,即當(dāng)下人工智能的發(fā)展已經(jīng)使得AI for Science(AI4S)變得可行。科學(xué)家們借助機器學(xué)習(xí)、數(shù)據(jù)分析、高性能計算等技術(shù),能在各個領(lǐng)域進行更深入的探索和發(fā)現(xiàn)。
隨之而來的問題是,如何讓AI4S在多個科學(xué)領(lǐng)域高效地展開?畢竟,AlphaFold3將蛋白質(zhì)序列、DNA/RNA堿基序列以及小分子結(jié)構(gòu)等,破天荒用Token統(tǒng)一編碼放到一個模型里,前后花了6年時間。而它對于科學(xué)家的賦能仍局限于生物化學(xué)分子這一細(xì)分領(lǐng)域,遠(yuǎn)未能覆蓋生命科學(xué)這一學(xué)科。
之江實驗室要做的是,把生命科學(xué)在內(nèi)的數(shù)學(xué)、物理、化學(xué)、天文學(xué)、地球科學(xué)和材料學(xué)等多個不同學(xué)科、不同類型的科學(xué)數(shù)據(jù)訓(xùn)練到一個基礎(chǔ)模型里,工作量和困難比當(dāng)年訓(xùn)練AlphaFold3指數(shù)級增加。
![]()
![]()
打造科學(xué)家們的超級“外掛”
“語言所表達的維度,遠(yuǎn)遠(yuǎn)低于科學(xué)所需表達的維度。”之江實驗室科學(xué)模型總體部技術(shù)總師薛貴榮說,科學(xué)數(shù)據(jù)涵蓋時間、空間、能量等多個維度,是對復(fù)雜物理系統(tǒng)演變規(guī)律的高維表征。
比如,地球科學(xué)中超過75%的信息存儲于聲波、磁場等非文本數(shù)據(jù)中;天文學(xué)依賴圖像、光譜來解析宇宙結(jié)構(gòu)與演化;生命科學(xué)的奧秘深藏于如人類基因組30億堿基對等DNA序列中……
這也意味著,解決科學(xué)問題,眼前最緊迫的是,突破語言空間的局限,構(gòu)建一個集“科學(xué)空間+語言空間”于一體的更高維空間,建立跨學(xué)科數(shù)據(jù)之間的深層連接,變革科學(xué)研究范式。
![]()
在技術(shù)上,之江實驗室的研發(fā)團隊探索構(gòu)建了全新的OneTokenizer(科學(xué)數(shù)據(jù)統(tǒng)一表征) + MoE(混合專家架構(gòu))融合模型架構(gòu)。
為了讓模型能夠識別、處理科學(xué)數(shù)據(jù),認(rèn)識并解決復(fù)雜科學(xué)問題。他們經(jīng)過了近萬次實驗形成了模型訓(xùn)練框架,并完成了2360億參數(shù)規(guī)模021科學(xué)基礎(chǔ)模型的訓(xùn)練。最后,一個跨學(xué)科知識、跨領(lǐng)域推理、跨語言理解(覆蓋204種語言),具備出色的科學(xué)推理能力,能夠深入分析、推導(dǎo)、驗證多類科學(xué)問題的科學(xué)基礎(chǔ)模型誕生了。
有了021科學(xué)基礎(chǔ)模型,對科學(xué)研究來說意味著什么?
021模型更像是科學(xué)家們打破學(xué)科邊界的一個超級“外掛”。薛貴榮演示了一個簡單的例子:一個反應(yīng)里面涉及5種化合物,包含反應(yīng)物、溶劑、助劑和催化劑,如何預(yù)測這些化合物相互作用能生成什么物質(zhì)?
通過實驗進行高通量篩選,通常需要數(shù)月乃至一年的周期,現(xiàn)在通過021科學(xué)基礎(chǔ)模型可以在數(shù)分鐘內(nèi)完成產(chǎn)物的預(yù)測,大幅提速。
![]()
“這是我見過最漂亮的一朵花!”
在進化到AlphaFold3之后,AI不僅可以回答和預(yù)測,還具備了“創(chuàng)造力”。比如,合成新型材料蛋白,生成更多AI-結(jié)構(gòu)模型,開啟藥物發(fā)現(xiàn)的新階段。
浙大城市學(xué)院先進材料增材制造創(chuàng)新研究中心主任湯慧萍就見過AI的“非凡創(chuàng)造力”。
在之江實驗室,她帶領(lǐng)著另外一群“硬盤俠”和實驗室的科學(xué)家們組成了一支攻堅隊,他們的主線任務(wù)是構(gòu)建一個多孔材料逆向生成模型。
![]()
湯慧萍
大自然孕育了無數(shù)神奇而有用的多孔材料,比如王蓮、珊瑚、骨骼、竹子,布滿了1厘米以下的孔。這么多復(fù)雜的孔構(gòu)型,是天工造物,突破了人類的想象。
那有沒有可能找到一個合適的孔構(gòu)型可以用在不同的領(lǐng)域?
和 劉石平 不同的是,湯慧萍與之江實驗室迸發(fā)出火花是在兩年前。在云棲小鎮(zhèn)的一次會議上,湯慧萍遇到了王堅,當(dāng)時湯慧萍和王堅聊起了多孔材料,整場聽下來王堅就記住了幾個字——“設(shè)計空間巨大”。
“那就可以用人工智能來做。”王堅對湯慧萍說。
這是一場跨學(xué)科的大作戰(zhàn)。70多個人的團隊,涉及材料、機械、力學(xué)、計算機、數(shù)學(xué)等多種學(xué)科。要訓(xùn)練一個模型,至少需要一個百萬級的數(shù)據(jù)庫。“但現(xiàn)有的數(shù)據(jù)很少,實驗數(shù)據(jù)又太慢。”湯慧萍說。
于是,團隊決定自己生產(chǎn)數(shù)據(jù)。怎么生產(chǎn)數(shù)據(jù),一開始也是蒙的,有兩三個月時間,一群年輕人坐在一起無從下手。后來找到了數(shù)學(xué)這個破題的關(guān)鍵,通過參數(shù)化建模方法和自研仿真算法,僅用3個月就生產(chǎn)了200多萬孔結(jié)構(gòu)-力學(xué)性能數(shù)據(jù)。
如果用傳統(tǒng)的仿真方法,要花上57年時間。
一個叫OnePorous的模型應(yīng)運而生,專注于多孔合金材料的設(shè)計與研發(fā)。其核心功能是通過逆向設(shè)計方法,直接生成滿足目標(biāo)性能的多孔胞元,減少了傳統(tǒng)正向設(shè)計需不斷試錯迭代的耗時。
團隊為3D打印衛(wèi)星設(shè)計的胞元,就是從AI生成的200多萬個胞元結(jié)構(gòu)中選出來的。看到那個胞元的瞬間,這位多孔材料和增材制造領(lǐng)域的科學(xué)家激動地說:“這是我見過最漂亮的一朵花!”
![]()
從AI生成的200多萬個胞元結(jié)構(gòu)中選出來的3618胞元
![]()
3618胞元構(gòu)成的多孔結(jié)構(gòu)
目前,這個胞元結(jié)構(gòu)已經(jīng)用于衛(wèi)星主體結(jié)構(gòu)制造,這也意味著,之江實驗室與浙大城市學(xué)院的跨學(xué)科團隊完成了從AI設(shè)計到3D打印制造的全鏈路創(chuàng)新。
除了材料科學(xué)模型OnePorous,目前021模型已服務(wù)地球科學(xué)、天文學(xué)、生命科學(xué)等多個領(lǐng)域。
比如天文領(lǐng)域模型OneAstronomy,將光譜、光變、圖像等不同模態(tài)的天文數(shù)據(jù)映射至統(tǒng)一表征空間,實現(xiàn)跨模態(tài)融合推理,重構(gòu)數(shù)據(jù)處理范式。通過OneAstronomy,望遠(yuǎn)鏡學(xué)會了自主觀測。
人類百億級基因組基礎(chǔ)模型Genos在致病性突變識別任務(wù)上實現(xiàn)了98.3%的準(zhǔn)確率。
今年4月面向全球開放使用的地學(xué)領(lǐng)域模型GeoGPT,經(jīng)過不斷迭代升級,其中GeoGPT-VL支持圖像描述總結(jié)、圖像信息提取、地理空間推理、地學(xué)分析推理四類典型任務(wù),實現(xiàn)從“讀圖”到專業(yè)推理的跨越。
文 | 沈積慧 梁應(yīng)杰
VIEW MORE
@下次再“箭”>>
@蔡崇信:中美AI競爭中中國有四大底牌>>
@釘釘副總裁創(chuàng)業(yè)>>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.