網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

在這個基礎(chǔ)研究領(lǐng)域，字節(jié)默默干了五年

2025-11-21 01:45:26　來源: 知識分子

北京舉報

分享至

圖源：Gemini

導(dǎo)讀
有很多企業(yè)在做 AI for Science，但大多聚焦于醫(yī)藥、材料和大數(shù)據(jù)等實(shí)用方向，而在量子科學(xué)這種超硬核基礎(chǔ)研究方向的探索非常難能可貴。

撰文 |袁嵐峰

如果問近年來最熱的科學(xué)領(lǐng)域是什么，那無疑是人工智能。不過，人工智能最大的用處是什么呢？

現(xiàn)在的最新趨勢是，科學(xué)。

這話的意思是，大家逐漸認(rèn)識到，最值得用AI去追求的東西就是科學(xué)成果，即AI for science，這比用AI聊天有價值得多。聊天聊得再好也不能產(chǎn)生新的知識，而科學(xué)是真能改變世界的。從科學(xué)到AI，又從AI到科學(xué)，閉環(huán)了。

有一點(diǎn)大多數(shù)人會感到吃驚的是，AI for science這個詞是中國科學(xué)家提出來的！不久前，我在跟東方衛(wèi)視合作的《錨點(diǎn)》節(jié)目中訪問北京科學(xué)智能研究院理事長張林峰博士時談到，2018年，中國科學(xué)院院士鄂維南和湯超等人在北京大學(xué)組織了一次會議，這個會議的名稱就是AI for science。

鄂維南院士是著名的應(yīng)用數(shù)學(xué)家、我的科大師兄，他在深度學(xué)習(xí)剛出來的時候就敏銳地意識到，許多領(lǐng)域的困難都可以歸結(jié)為維數(shù)災(zāi)難，而深度神經(jīng)網(wǎng)絡(luò)正是提供了一個克服維數(shù)災(zāi)難的機(jī)會，因?yàn)樗且环N逼近高維函數(shù)的方法。在他的指導(dǎo)下，張林峰等年輕科學(xué)家取得了很多突破，例如把高精度分子動力學(xué)模擬的原子數(shù)一下子提高了五個量級，獲得2020年戈登·貝爾獎，這個獎被稱為高性能計算應(yīng)用最高獎。

這方面的研究對我來說其實(shí)非常熟悉，因?yàn)槲业膶I(yè)叫做理論與計算化學(xué)，分子動力學(xué)就是其中的一部分。理論與計算化學(xué)還有一部分叫做量子化學(xué)，即用量子力學(xué)原理直接計算原子分子體系的性質(zhì)。今天，我們就來介紹一個量子化學(xué)的最新進(jìn)展。

10月21日，來自字節(jié)跳動、倫敦國王學(xué)院和北京大學(xué)等單位的科學(xué)家在《Nature Communications》上發(fā)表了一篇文章，標(biāo)題是《一種多分辨率、可系統(tǒng)改進(jìn)的大規(guī)模表面化學(xué)計算量子嵌入方案》（A multi-resolution systematically improvable quantum embedding scheme for large-scale surface chemistry calculations）[1]

圖片截取自Nature Communications

實(shí)際上，這里的關(guān)鍵是“可系統(tǒng)改進(jìn)”。量子化學(xué)計算最大的好處是算得準(zhǔn)，能夠直接跟實(shí)驗(yàn)對照，而最大的困難是計算量隨體系擴(kuò)大增長得很快，所以對于比較大的體系就算不動了。

量子嵌入就是解決這個困難的一種思路，即把體系分成兩部分，對最感興趣的核心區(qū)域用高精度算法，對其他區(qū)域用低精度算法，然后想辦法把兩部分的結(jié)果縫合起來。比如說我們要研究一個分子吸附在一個表面上，那么這個分子以及它吸附的那一小塊區(qū)域就是最值得關(guān)心的，用高精度算法，離得比較遠(yuǎn)的地方就不是那么重要，用低精度算法。

這樣的量子嵌入方案以前就有，但它們不能“系統(tǒng)改進(jìn)”。這是因?yàn)樗鼈冇玫母呔人惴ㄆ鋵?shí)并不是那么的高精度，例如最常用的密度泛函理論（DFT），其中仍然包括一些經(jīng)驗(yàn)參數(shù)。它可以快速地得到一個還不錯的結(jié)果，但如果真想把誤差縮減到極小，就不知道該怎么辦了。

這篇文章的突破，就是把量子嵌入中的高精度算法換成了真正意義的高精度，它的誤差確實(shí)可以隨著計算參數(shù)的提高而下降到極低，這就是“可系統(tǒng)改進(jìn)”。具體而言，這種算法叫做CCSD(T)，意思是包括單重激發(fā)（S）、雙重激發(fā)（D）和部分三重激發(fā)（T）的耦合團(tuán)簇法（coupled cluster，簡稱CC）。在我二十多年前讀博士的時候，CCSD(T)就是最著名的精確量子化學(xué)方法，被廣泛認(rèn)為是“金標(biāo)準(zhǔn)”。但它實(shí)際用得并不多，為什么？因?yàn)橛嬎懔刻罅耍荒芴幚砗苄〉捏w系。

那么，這篇文章的作者是如何迎難而上的？他們的方案叫做SIE，全稱是systematically improvable quantum embedding，即“可系統(tǒng)改進(jìn)的量子嵌入”。SIE用到很多理論方法，例如施密特分解、密度矩陣嵌入理論、浴自然軌道等等。限于篇幅，在這里不能詳細(xì)介紹。但基本圖景就是，通過這一系列理論創(chuàng)新，加上全面的GPU優(yōu)化，他們成功地讓很大的體系都能實(shí)現(xiàn)CCSD(T)的精度，讓這個金標(biāo)準(zhǔn)適用到了以前不可思議的規(guī)模。

具體而言，他們用什么體系做了演示呢？是一個看起來很簡單、但計算起來一點(diǎn)都不容易的體系：石墨烯上吸附一個水分子。請問，這個水分子最喜歡以什么樣的構(gòu)型待在石墨烯上？是兩個氫原子朝下，氧原子朝上（稱為兩腿）？還是氧原子朝下，兩個氫原子朝上（稱為零腿）？還是兩腿和零腿之間的某種狀態(tài)？

實(shí)際上，這個問題以前是眾說紛紜，不同的作者給出不同的結(jié)果。這是因?yàn)樗麄冇玫乃惴ú煌Ｐ痛笮∫膊煌Ｕ堊⒁猓覀兤鋵?shí)沒法模擬一個單個水分子加無窮多個碳原子的體系，我們能模擬的總是有限大小的體系。因此，這就存在一個體系規(guī)模收斂性的問題，只有當(dāng)模型足夠大，我們看到吸附能的計算值收斂了，才能相信結(jié)果的可靠性。但以前的計算要不就是模型不夠大，要不就是算法不夠精確，所以沒有一個真正達(dá)到收斂的。

在這樣的背景下，我們的SIE立功了。它把碳原子的數(shù)目擴(kuò)展到了384，再加上一定的外推，求出了兩腿和零腿以及其他若干種構(gòu)型在體系無限大時的吸附能。在外推的過程中發(fā)現(xiàn)，水跟石墨烯的相互作用其實(shí)是相當(dāng)長程的，作用距離超過1.8納米，這意味著需要400多個碳原子。無怪乎以前的模擬都不準(zhǔn)，因?yàn)樗鼈冸x這個規(guī)模還遠(yuǎn)著呢！

SIE既然在高精度下算出了各種構(gòu)型在體相極限時的吸附能，那就可以比較誰高誰低了。你猜結(jié)果是什么？是各種構(gòu)型的吸附能都幾乎相等！也就是說，水分子可以在石墨烯上自由翻滾，并不像以前想的那樣傾向于某個構(gòu)型。

從定性的角度看來，我覺得這個結(jié)果其實(shí)是相當(dāng)符合直覺的。因?yàn)槭]有極性，所以水分子在上面沒有個偏好的角度，這很合理。而在一些極性表面，例如氮化硼或過渡金屬二硫?qū)倩铮肿泳陀袃A向性了，這同樣也很合理。

但這個計算絕不僅僅是得出了一個符合常理的結(jié)果，因?yàn)檫€有一些現(xiàn)象亟待SIE去解決。例如2022年發(fā)現(xiàn)了一種現(xiàn)象叫做量子摩擦，意思是碳納米管內(nèi)水分子流動受到的摩擦，隨著碳納米管直徑的縮小是會降低，而不是升高。要理解這種現(xiàn)象，顯然直覺就不夠了，需要對很大的體系做十分精確的量子化學(xué)計算，這正是SIE有望大顯身手的地方。

這項研究還有一個十分有趣的地方，就是第一單位是字節(jié)跳動這個企業(yè)。多年來，人們的印象是許多外國企業(yè)愿意投資做基礎(chǔ)研究，例如貝爾實(shí)驗(yàn)室、IBM、谷歌，而中國企業(yè)大多只愿意做應(yīng)用研究，能立刻賺錢的。但在AI for science的時代，像字節(jié)這樣的中國企業(yè)在基礎(chǔ)研究方面也大有進(jìn)步。

實(shí)際上，字節(jié)跳動的AI for science研究從2021年就開始了。他們的代表性成果，除了這篇SIE，還有一大類是基于神經(jīng)網(wǎng)絡(luò)的量子蒙特卡洛方法（NNQMC）。前面我們說的CCSD(T)和DFT都是確定性算法，而量子蒙特卡洛是一種隨機(jī)性算法，天然適合AI應(yīng)用，所以近年來得到了巨大的關(guān)注。

NNQMC最大的好處，就是它算得特別準(zhǔn)。有一個重要的指標(biāo)叫做“化學(xué)精度”（chemical accuracy），一般取為1 kcal/mol，意思是對能量的計算精確到這個程度，就跟實(shí)驗(yàn)相當(dāng)甚至比實(shí)驗(yàn)更高了。CCSD(T)之所以被稱為金標(biāo)準(zhǔn)，就是因?yàn)樗芟到y(tǒng)地達(dá)到化學(xué)精度。但NNQMC更厲害，字節(jié)跳動的科學(xué)家發(fā)現(xiàn)，隨著神經(jīng)網(wǎng)絡(luò)規(guī)模和計算資源的增加，它的精度能夠持續(xù)提升，甚至比化學(xué)精度還高一個量級。[2][3]

圖片截取自Nature Communications

由此可見，NNQMC有巨大的潛力，唯一的缺點(diǎn)就是算得慢。其實(shí)它大部分計算量，都消耗在計算二階導(dǎo)數(shù)（即Laplacian）。字節(jié)跳動團(tuán)隊對此設(shè)計了一套前向傳播計算框架，叫做Forward Laplacian，使NNQMC達(dá)到了十倍加速，從而能處理上百電子的體系[4]。這個框架已經(jīng)廣泛被業(yè)界采用，例如谷歌DeepMind 2024年在《Science》發(fā)表的NNQMC工作中，就用到了Forward Laplacian。

圖片截取自Nature Machine Intelligence

還有一個有趣的發(fā)展是，NNQMC以前只能計算分子體系，字節(jié)跳動團(tuán)隊把它推廣到了擴(kuò)展體系。[5]例如大家可能都聽說過魔角石墨烯體系，即兩層轉(zhuǎn)過特定角度的石墨烯摞在一起，聽說過曹原等人在魔角石墨烯體系中發(fā)現(xiàn)了超導(dǎo)性。字節(jié)跳動團(tuán)隊把NNQMC用到了這個體系，從而能夠研究其中的量子霍爾效應(yīng)和拓?fù)浣^緣體等神奇性質(zhì)。[6][7][8]

圖片截取自Nature Communications

作為量子化學(xué)專業(yè)的，我對這些進(jìn)展十分感興趣，因?yàn)樵敢饪羞@種硬骨頭的太少了。目前可以說有很多企業(yè)在做 AI for science，但大多聚焦于醫(yī)藥、材料和大數(shù)據(jù)等實(shí)用方向，而在量子科學(xué)這種超硬核基礎(chǔ)研究方向的探索非常難能可貴。工欲善其事，必先利其器，在基礎(chǔ)研究方面的突破，必將在將來帶來更大的收獲。

最后，我們來看一下大圖景。AI for science是由中國科學(xué)家提出的，中國企業(yè)正在把它迅速推向前進(jìn)。我們期待更多的人和組織對AI for science做出貢獻(xiàn)，把人類文明推到新高度。

作者簡介：
袁嵐峰，中國科學(xué)技術(shù)大學(xué)合肥微尺度物質(zhì)科學(xué)國家研究中心副研究員、科技傳播系副主任、科學(xué)傳播研究與發(fā)展中心副主任。

參考文獻(xiàn)：
[1]https://www.nature.com/articles/s41467-025-64374-2
[2]https://www.nature.com/articles/s41467-023-37609-3
[3]https://arxiv.org/abs/2508.02570
[4] https://www.nature.com/articles/s42256-024-00794-x
[5] https://www.nature.com/articles/s41467-022-35627-1
[6] https://www.nature.com/articles/s42005-025-02282-z
[7]https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.134.176503
[8] https://arxiv.org/abs/2503.11756

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.