![]()
當 AlphaFold 為蛋白質結構預測摘得諾貝爾獎,當氣象大模型開始逼近甚至超越傳統數值天氣預報的精度,當 AI 驅動的自動化實驗室在全球頂級研究機構遍地開花,“AI for Science”正以前所未有的速度重塑科學研究的范式。
2025 年,《Nature》發布的 AI for Science 專題報告指出,物理信息神經網絡(PINNs)等知識引導的深度學習方法,正在顯著增強模型的泛化能力和可解釋性,成為這場變革中的關鍵技術路徑之一。
而在這條路徑上,耶魯大學統計與數據科學系、化學與環境工程系助理教授陸路(Lu Lu),是最具代表性的青年研究者之一。2025 年 9 月,他入選麻省理工科技評論“35 歲以下科技創新 35 人”亞太區榜單(TR35 Asia Pacific)。
陸路本科畢業于清華大學熱能工程系,后赴布朗大學攻讀應用數學博士,師從計算力學領域的頂級學者 George Em Karniadakis 教授。
他的研究橫跨科學機器學習的理論、算法、軟件與應用:他與導師共同提出的深度算子網絡 DeepONet,發表在 Nature Machine Intelligence 上,開創了用神經網絡學習無限維函數空間之間映射的范式;他開發的開源庫 DeepXDE,是目前最廣泛使用的物理信息神經網絡工具之一,發表在 SIAM Review 上,成為該刊被引用和閱讀最多的文章之一;他在鐮刀型細胞貧血癥的定量預測上的工作發表于 Science Advances,在材料力學性質提取上的工作發表于 PNAS。
近年來,他還將研究拓展至多保真度算子學習、量子加速神經算子(Quantum DeepONet)等前沿方向,并獲得美國能源部 400 萬美元資助,領導開發聯邦學習的科學基礎模型。其 Google Scholar 引用量已超過 26,000 次。
在當前大語言模型和生成式 AI 主導公眾注意力的背景下,科學計算領域的 AI 革命同樣深刻卻往往不為大眾所知。我們與陸路進行了一次深度對話,從他個人的學術成長出發,聊了聊科學機器學習到底在解決什么問題、為什么物理知識和數據需要結合、AI 在科學研究中能否成為真正的“協作者”,以及他對中美 AI 科研差異的觀察。
用AI重新定義科學計算:對話耶魯大學陸路,DeepTech深科技,47分鐘
以下為對話全文:
DeepTech:我們今天邀請到了 TR35 亞太區 2025 的入選者陸路老師,來聊一聊他的成長故事和他所做的事情。下面請陸老師先跟大家打個招呼。
陸路:大家好,我是耶魯大學的陸路,我現在做的工作我們稱之為 Scientific Machine Learning,或者叫 Physics-Informed Machine Learning,中文翻譯是物理信息機器學習,或者叫科學機器學習。它的一個特點是需要結合多方面的背景。
首先這是一個機器學習的方法,自然需要計算機相應的背景。然后像我的研究,主要是把這一類方法開發出來,用來解決很多科學計算里面的問題,所以又需要很多數學背景。當我們開發了很多方法之后,我們會希望把這些方法用來解決實際的工程問題或科學問題,所以在很多實際的應用場景中,又需要很多工程的背景。這就跟我過去很多年的教育背景以及所學的專業有關。
我在清華的時候,專業是熱能工程系——現在大概是 2017 年左右改名,叫能源與動力工程,屬于機械學院下面。所以我本科時就有很多工程的背景。同時我當時選修了經濟學雙學位和計算機輔修,所以也有很多計算機方面的背景。后來到布朗大學,我一開始也在工程學院,上了很多工程學的課。后來轉到應用數學,同時也在修計算機的碩士。學了這么多之后,發現這些東西在我的研究中全都用上了,我覺得還是挺開心的一件事情。
DeepTech:你從熱能工程然后又轉到計算機、又轉到數學,是什么樣的動因驅動你做這些專業方向上的選擇?
陸路:我一開始高考之后選專業,其實當時也沒有做太多思考,覺得熱能工程這個方向感覺挺有意思的,而且能解決很多實際的問題,所以選了這樣一個工科方向。但是在學習的過程中,包括本科時做的一些科研,發現很多時候會需要計算機的支持。特別是我當時對建模仿真這方面感興趣,本科時也做過一些實驗,但我對實驗好像不是很擅長,做得不是特別好,所以一直喜歡做模擬仿真。當時就同時選修了計算機的輔修。
在布朗的時候,我一開始在工程學院,但主要感興趣的還是做計算機模擬,而不是做實驗。當時我很感興趣的一位老師,就是我后來的博士導師 George Karniadakis,他在應用數學系。所以我后來很自然地把學位從工程轉到了應用數學。我一開始的研究也沒有做機器學習。
在我博士的前幾年,大概是 2014、2015 年,我主要做的東西簡單來說是和分子動力學相關的。我們會用分子建模的方式來模擬一些生物現象。當時我們做了很多高性能計算,會寫 C++程序,用并行的超算來進行大規模模擬。這些能力需要上很多計算機底層的課,才能讓自己寫的算法跑得非常快、非常好。所以當時學了很多計算機方面的知識。很多時候可能也是跟我的興趣有關,我對用模擬、建模仿真、計算的工具來解決應用數學或者工程方面的問題一直比較感興趣,所以它就同時需要多方面的背景。
DeepTech:所以其實你轉向計算機也好、轉向應用數學也好,在你轉向的過程中,AI 技術其實還沒有大范圍普及開來,或者當時還屬于一個低谷期。
陸路:對,是的。一開始的時候大家還沒有認識到 AI 有多么有用。現在大家都在做 AI for Science,用 AI 來解決科學中的問題。但當時 AI 還處于很早期的階段,包括計算機視覺都還沒有發展很好。所以那時候我一開始也沒有想到后面要做 AI。但是我學了這么多東西,后來發現這些知識,計算機也好、應用數學也好,都自然而然地用在了我現在關于 AI 的研究中。
DeepTech:那在這個轉向過程中,你有沒有遇到過一些困難?因為我也是學自然科學的,學生物相關的,通過生物去研究計算機相關的知識和領域進展的時候,對于我來說屬于跨學科,會遇到各種各樣的困難。對于你來說有沒有這樣的經歷?能不能分享一些怎么克服這些困難的經驗?
陸路:我覺得你說得對,確實是跨學科工作的一個基本問題。跨學科很多時候需要更多的付出。比如我剛才提到,本科的時候做的東西是和傳熱流體相關的。后來在讀博的頭幾年,我用的方法叫 DPD(Dissipative Particle Dynamics),大概來說就是用分子動力學的方式,當時模擬的現象是紅細胞、血紅蛋白這個尺度。我們希望用計算機模擬去理解紅細胞到底是怎么工作的、怎么調控的、它的力學性質怎樣。我們當時還考慮一個疾病叫鐮刀型細胞貧血癥,這個可能大家在高中課本上學過,去理解這個疾病到底怎么發生的,它怎么和藥物進行交互,為什么有些藥能夠產生效果。
這個課題一開始我上手花了一段時間。因為這是一個生物問題,我之前也沒有學過;用的工具是分子動力學這類工具,本科時也沒有學過。所以一開始讀了非常多的文獻,花了很多時間去進入這個領域。我記得特別深的一件事是,當時我需要用一個軟件叫 LAMMPS,一個非常多人使用的分子建模軟件。但 LAMMPS 不是很容易上手,不像比如現在我們用 TensorFlow、PyTorch,教程非常完善,網上例子非常多,API 也很簡單。
LAMMPS 是一個 C++代碼,代碼量非常大,文檔寫得也不是那么友好,至少在當時。我記得我一開始的時候把幾百頁的文檔打印出來,從頭到尾讀了三遍,終于把這個軟件怎么工作的、底層實現原理是什么搞清楚了。因為我們需要進入這個代碼本身做很多非常底層的修改。所以感覺一開始還是經歷了一些比較痛苦的時期來進入這個領域。
DeepTech:但是經過一段痛苦的時間之后,對你的科研工作其實是有幫助的。
陸路:對,我覺得有幾方面。一個是不僅知道了這個問題怎么做、工具怎么用,另一方面也是對我本身能力的一個培養。
DeepTech:對你來說,這樣也有助于了解更底層的運行原理,對科研工作是一個助力。
陸路:對,我現在已經不做這個方向了,但我覺得當時的很多積累和思考對后面的工作都是有幫助的。
DeepTech:你現在轉向機器學習,這個過程是不是就比較順暢了?
陸路:從我的經驗而言,其實機器學習的上手,進入機器學習這個領域,比那些傳統領域,比如我剛才提到的分子動力學,要簡單很多。不管是讀文章也好,自己寫代碼也好,確實非常容易上手。
DeepTech:其實這個時候你已經寫了十幾年的代碼了。
陸路:對,也可能是我自己能力提高了,不一定是這個領域簡單。
DeepTech:剛才你提到你是用機器學習的辦法去解決一些物理的問題和數學的問題。你能再給我們介紹一下你的科研方向嗎?因為我們的播客偏向的受眾還是相對大眾一些的,希望能夠讓大家聽懂你的研究內容。
陸路:首先說一下我的目標,我們到底要干什么。我一直感興趣的就是仿真建模,我們有很多不同的生物現象、物理現象,比如剛才提到的血液的流動,或者對飛機、汽車進行建模,或者天氣的預測。這些復雜的系統,我們希望找到一個工具能夠對它進行預測,以便更好地進行控制和優化。
如果我們考慮傳統的計算方法,基本上就是寫方程。比如說血液的流動,我有一套方程把它寫出來,里面可能有很多參數,我自己選一些參數。這樣建一個完備的系統,不需要任何數據,用代碼或某種數學方法就可以求解這個系統,知道它會怎么發展、有什么性質。
DeepTech:這就是你之前說的用超級計算機去解這些方程,對吧?
陸路:對,是的。但這里面會有很多問題。比如我要對血液進行模擬,但血液是一個非常復雜的現象。當我們想用方程來描述,可能沒有一個非常完美的方程來模擬血液。即使把方程寫出來,里面可能有很多未知項、很多參數,我也不知道該怎么選。所以傳統方法就有各種各樣的限制。同時用超算來算非常貴。
DeepTech:超算的計算時間也很長。
陸路:對,所以我們就希望用機器學習的方式來解決這些難點。說到機器學習,大家經常會想到數據驅動或大數據。很多時候,比如我有一個復雜的系統,方程我可能不完全知道它長什么樣,但我可能有一些知識,我們過去有很多積累,大概知道怎么用數學語言去描述,但可能不是百分之百準確。同時我們可以對這個系統收集很多數據。所以我們就希望結合過去已有的科學知識加上收集的數據,兩者結合來進行建模,而不只是從物理出發。
這就是我們稱之為 Physics-Informed Machine Learning(物理信息機器學習),把物理信息和數據結合在一起來進行建模。這樣也會解決一些其他問題,比如一旦神經網絡訓練好之后,它的預測能夠非常快,而不需要超算。舉個例子,我當時做模擬的時候,印象非常深刻,那時我跑的一個系統非常大,為了追求較高的精度,用了超過 20 億級別的粒子數來求解。當時我用的是美國排名第一的超算,用了它大概三分之二的資源來跑那個程序,但結果也沒有那么理想。有了機器學習之后,雖然訓練可能很貴,但訓練完之后用來預測新的情況、做其他任務就非常方便了。
DeepTech:能不能再給我們解釋一下,傳統是解方程,那現在是讓 AI 去解方程,還是說用 AI 只是映射方程的結果呢?
陸路:你這一點說得非常好。現在其實有多種做法。一種是用 AI 來直接解方程,舍棄傳統的解方程算法,只用 AI 來解。另一種是不用 AI 做求解過程,而是用 AI 直接一步做預測。
DeepTech:直接輸出結果。
陸路:對,這兩種我們都有做。現在的科學界這兩種都有大量的人在做,甚至還能相結合。
DeepTech:你主要選擇哪種方法?
陸路:像好幾年前,特別是我在讀博士的時候,我一開始做的是第一種:我有一個方程,可能是各種形式、不同的問題。比如我們稱之為正問題或者反問題。我最初的研究主要偏向于用 AI 來解正問題和反問題。所謂正問題,比如直接對血液進行模擬;反問題則是它的反面,比如我有一個材料,有一些力學性質,有一些觀測值,這些觀測值可以認為是方程的解,我已經有了一些解,但希望反過來預測材料的性質,也就是反過來預測方程中缺失的一些信息,這就稱之為反問題。
我們一開始做的比較多的是開發一些 AI 算法來解正問題和反問題,特別是反問題。當時取得了一些進展,有些問題上比傳統方法做得更好。后來,特別是博士最后一年到現在,我的研究方向更多集中在用 AI 來直接預測方程的解。我們稱之為“算子學習”,因為預測方程的解可以稱之為一個解算子,所以叫算子學習。
DeepTech:本質上相當于訓練完模型之后,讓 AI 直接去預測某一個方程的解,或者直接預測某些數據,輸入之后直接輸出結果,對吧?那這個模型在訓練的時候是不是也需要大量的數據?
陸路:這個問題非常好。訓練有很多種不同的方法。第一種最直接的方法就是先產生數據,這個數據可以用 AI 來產生,也可以用傳統方法來產生。產生數據之后做訓練,這是比較自然的想法,類似于現在做 ChatGPT 訓練一樣,先產生數據然后做訓練。這種好處是兩步分得很開,研究起來比較簡單。
但問題在于很多時候產生數據的過程計算量很大。不像自然語言,我們可以把網上數據全都爬下來就可以訓練。科學數據很多時候需要跑模擬、跑仿真去產生。所以有另一種方法,我們稱之為 Physics-Informed 的方法,在訓練過程中,可以產生一些數據,但不需要那么多,產生一些小數據。同時在訓練過程中,把一些物理知識也作為訓練的一部分。比如我們知道訓練的結果是某個系統的預測,那么這個預測要滿足一些物理規律,這些物理規律就可以作為訓練過程中的一種約束。這樣就可以減少對數據的依賴。至少在我的研究中會更多地采用這種方法,不完全拋棄物理知識,還是會把它加進來。
DeepTech:相當于如果讓 AI 自己去收斂,肯定需要非常大的數據才能出現準確的預測結果。如果加入一些物理規律的約束或規則約束,可能不需要大量的數據樣本。因為我也知道自然科學的數據,第一細分得非常細,第二獲取非常難。這樣的話就不需要大量的數據去喂它了,建立了一些規則之后,它在規則的基礎上去跑這些數據,可能就會得到更優的結果。
陸路:對,其實怎么解決數據的問題,我們最近做了很多工作。一種是我剛才提到的,把之前的知識,數學方程也好,或者最基本的質量守恒、能量守恒等都放在訓練過程中去。當然我們還有很多其他做法。比如我們有一種方法叫 Multi-Fidelity Learning,中文可能翻譯叫“多保真度機器學習”。這個概念不是新的,但它和機器學習結合能產生一些很意想不到的結果。
舉個簡單例子,比如我要對某個現象進行求解,需要產生數據。但數據產生有很多種方法,我可以用很多算力得到非常準的數據,但這種數據很難獲取,可能很少,我們稱之為 High Fidelity,就是高保真度數據,非常準但非常少。另一種做法是產生數據時不需要那么準,可能差 10%、差 15%,就大概有一個趨勢。產生這樣的數據相對簡單,會產生大量的這種數據,我們稱之為 Low Fidelity,數據量龐大,但每個數據質量較差。
我們這個方法可以想象成一個金字塔結構:越往上數據精度越高越好,越往下數據質量越差。但好的數據在金字塔頂端數量很小,差的數據在底端數量很多。這個方法就是說,我們有這樣多級別的數據,希望把它們全部用起來,通過機器學習的方式融合在一起,得到一個非常好的模型。這個模型會比你只用少量精確數據、或用同等計算代價獲得的結果要更好。
DeepTech:這樣數據的問題就相對好解決一些了。
陸路:對。像我提到的這是一種策略,其實我們還有很多其他的策略。比如我們最近有一篇文章發表在 Nature Communications 上,考慮了一個非常有意思的極端情況,如果在某個時刻你只有一個數據,你怎么去對這個數據進行學習。這在有些應用場景中確實會出現。
當時我們舉了一個例子:比如新冠疫情的時候,大家去預測傳染疾病的發展。有一個所謂的 SIR 模型,大概可以預測不同人群,比如受感染的人群、恢復的人群之間的交互。比如一個人被感染后可能又恢復。但這種模型沒有考慮到不同的人口密度或人的遷移率。比如我們考慮上海或北京,它的動力學性質跟人口更稀疏的地方,比如內蒙古,肯定是不一樣的。所以有一個更準確的模型會考慮人口分布和遷移速率。可以想象,如果每個人每天遷移的距離更多,疾病其實更容易傳染。
如果考慮這種情況,比如政府要做一個預測,要不要限制大家外出,限制到什么程度,那我們可能就想知道一個政策會對應怎樣的結果。收集數據就是需要對某個城市的人口或當時某個階段的情況進行調研,這樣的數據收集起來非常麻煩,不可能收集好多次。可能政府花了很大精力收集了一次數據。用我們的方法,只收集一次數據,做一次普查,就可以對系統進行分析。如果有一個新的政策,模型就會告訴你對于這個政策,疾病會怎么發展;政策更寬松或更收緊,會導致什么結果。所以實際中確實會有一些具體的應用場景,數據會極度稀少。
DeepTech:這樣我們讓數據的收集者也減輕了壓力,同時能夠給出不同政策下的預測結果,有利于決策,而不是反復收集動態數據。動態數據的獲取確實非常困難。
陸路:是的,我當時考慮的就是有些場景中收集數據,特別是動態數據、長時間的數據,代價是非常大的。
DeepTech:你剛才提到不管是小樣本學習,還是利用規則去收斂學習路徑,就會帶來另一個問題,我們都知道在機器學習中可能會產生過擬合的現象,也會出現很難解決長尾問題的情況,就是極端情況下預測失真。你如何判斷,你訓練完的 AI 模型是真正捕捉了底層的物理規律,還是一個過擬合的結果?
陸路:這個問題非常好。一般來說機器學習是數據驅動的,很多時候模型的效果取決于你用什么樣的數據去訓練。
DeepTech:以及數據質量。
陸路:對,數據質量、數據的范圍。在我們這套方法中,可以加入物理信息,很多時候能使模型的泛化做得更好,改善性能。但從理論上來說,很多時候我沒法保證它一定能處理任意的輸入。比如你提到的長尾數據,確實是一個非常難的問題。
所以我和我的很多同行會做這樣一件事情:我承認我這個模型訓練好之后沒法處理任意的輸入,但我們想知道模型怎樣能夠更加魯棒(robust)。比如有一個新的輸入進來,如果我的模型能夠探測出這個新輸入它能不能準確處理,如果模型自己知道這個輸入我能處理,就直接預測輸出;或者直接告訴使用者,這個輸入我不知道怎么做。所以我們也有一些工作,不是一定要使模型能夠處理任意輸入,因為確實非常難,會有一些極端情況在訓練時很難考慮到。
DeepTech:那這種輸入,模型會自己識別出來呢?還是有可能會輸出假的結果,或者偏離正確值太遠的結果?
陸路:這種方法某種意義上還是有一定概率在里面的。對于一個輸入,很多時候我沒法百分之百保證模型能否正確預測。但我們很多時候能做的是在概率上,有非常大的概率讓模型知道它是否有能力處理這個數據。同時在設計的時候,可以加入一些人工因素,比如設置一些參數,讓模型對輸入更保守或更激進,可以根據需要去調節。但確實也不能做到百分之百,可能是 99% 或者很大概率能夠正確。
DeepTech:那這個模型有沒有一些驗證的手段?比如我們知道在自動駕駛里,過去模型的決策鏈路我們是看不到的,現在新的發展方向是加入了語言處理,通過語言來了解模型的決策是否正確。在進行科學研究的時候,我們一般也認為模型是一個黑箱,它的可信度和結果的可追溯性怎么樣?
陸路:這方面其實有很多研究。像我做的和 PDE(偏微分方程)相關的場景,我們有一些辦法去追溯,比如可以知道模型的輸出為什么會這樣輸出。但這個領域沒有一個方法能保證百分之百是對的。所以很多時候使用模型的人,可能還是需要理解模型它為什么會有這樣的輸出。比如在做決策的時候,模型告訴我輸出是某個值,同時可以告訴你一些輔助信息,模型為什么會有這樣的決策。但這些解釋性的反饋也不一定能保證它是對的。
像我們在解 PDE 方程的領域,當和傳統方法相比的時候,傳統的數值方法有非常嚴格的理論保證。像機器學習的話,很多時候我們只能在概率上給出一個保證。比如訓練完之后,我說很大概率是對的,或者在某種覆蓋率的情況下是對的,或者精度大概是多少。我永遠不能告訴你百分之百能達到什么程度。我覺得這可能是機器學習范式的一個固有問題。
DeepTech:在概率的情況下,永遠不可能保證百分之百的準確。
陸路:對,其實現在比如說 ChatGPT 或者 Gemini 或者其他大模型,已經越來越好了,大部分時候是對的,但也沒法保證回答百分之百正確。
DeepTech:有沒有出現過這樣一種場景,你覺得大概結果應該往某個方向走,但經過 AI 的計算或分析后,它給出了截然不同的結果,或者意想不到的結果,而你去驗證后發現 AI 給出的結果反而是正確的?
陸路:這是一個非常有意思的事情。我們最近正在做的一個課題,前兩周我們想用機器學習去預測一個關于地球物理的問題。當時機器學習的結果我覺得很奇怪,跟我們的一些直覺不大一致。后來我們發現原因在于,機器學習模型沒有問題,而是我們產生數據的模型有問題。所以很多時候機器學習的結果有時候會出乎意料,但并不是模型的問題,可能是反而我們對問題產生了一些理解上的錯誤,或者我們之前的建模方式哪里有問題。
DeepTech:所以當我們把傳統領域或學科引入 AI 場景之后,AI 不僅僅是一個解題的工具,不像過去超算只是解方程的工具,它甚至能夠在某些程度上成為我們的協作者,能夠提供一些結果上或者預測方向上的信息。
陸路:對,其實這一塊也有很多不同的方法。比如還有一類問題是怎么用 AI 去發現新的物理知識。很多時候我們以前的知識可能是手動推導出來的,但現在有了 AI 這個工具,可以用 AI 自己去發現一些我們以前可能沒有想到的東西。
DeepTech:學物理的同學都會有一個執念,追求大一統,完成一個收斂的過程。剛才咱們聊的過程中,我大概記了幾個應用方向,地球物理、傳統的生物學、流體動力學。這幾個應用方向在我們看來都是相對傳統的領域。把你這樣一些新的研究范式引入傳統學科里,有沒有遇到什么阻力或困難?
陸路:阻力可能說不上,因為像我這些研究,很多時候我也不是某一個方面的專家。比如說我也不認為我是地球物理方面的專家,我一般會找很多合作者。在不同的科學領域,有很多人對 AI 幫助他們進一步提高、解決他們的問題,持著非常開放的態度。所以倒沒有特別有阻力,但會有一些地方遇到問題。
比如最近有一篇文章,我們研究的是一個生物問題。簡單描述就是我們的心臟可能會有各種疾病。如果心臟生病了要做手術,醫生在手術前需要知道心臟現在屬于什么狀況,因為不同的狀況要采取不同的手術策略。
以前大家會根據醫生的經驗,首先對心臟做一些成像,CT 也好、MRI 也好——然后醫生看這些成像照片,根據經驗或一些傳統方法去推斷。但這樣其實非常難,可能也會有錯誤,精度不一定高,依賴于醫生的經驗。
所以我們當時用 AI 來做這件事,提出了一套方法。我們是第一個用 AI 來做這個具體問題的。當時我們還把技術用在了一個真實的病人身上,因為我和醫院的一個同事合作,他當時有一個小病人。我們預測完之后和傳統方法對比,發現我們的方法確實在某種意義上更好。
但問題在于,做傳統方法的人會質疑:你這個 AI 預測出某個結果,可能和傳統結果不完全一樣,你怎么知道你的方法是對的?
DeepTech:很多醫學上要求循證。
陸路:對,因為當時是一個真實的病人,我們不可能把真實病人的心臟取出來做實驗,然后說你看真的和機器學習預測是一致的。在文章里我們可能先用虛擬病人的模擬數據來驗證方法是對的。但到了真實病人身上,很多時候沒法說一定是對的。所以在一些特殊情況下,比如醫學領域,會有這樣的問題,傳統數值方法有理論保證,大家自然覺得是對的。到了 AI 之后,不是一步一步人工推導的,怎么去解釋結果是對的,我們可能會有一些解釋,但要完全說服別人,需要更多時間。
DeepTech:所以引入到傳統行業的時候,我們也需要傳統行業的專家來合作,進行結果的驗證和保證,這樣才能在各行各業里去應用,尤其是相對嚴肅的領域,比如醫學。
陸路:對,比如剛才提到的那個案例,我的合作者是一個醫院的醫生,他真的會做臨床手術。他當時對這個結果覺得非常好。
DeepTech:所以 AI 也可以成為醫生的高效率工具。醫生并不希望每天通過看片來得出結論。如果我們能很快預測出結論,醫生只需要判斷對錯就好,而不需要一步一步用經驗去推導結果。他從一個執行者變成了一個決策者。
陸路:對,我覺得當我們用在各種領域的時候,還是需要領域內的專家大家一起合作。
DeepTech:目前我們在科學上的研究,與各大廠競爭的語言模型或多模態模型,有差異嗎?有沒有一些交叉?
陸路:像大廠做的語言模型和其他模型,跟我做的科研應用方面的模型,我覺得既有差異又有共通點。很多技術其實有相似性,比如 Transformer 一開始是為語言模型開發的,但我們現在也把它用來做科學計算。所以很多技術可以借鑒過來。但也有很多不一樣的地方,比如數據,他們有海量數據,但科學領域或工程領域很多時候數據量很少。同時我們有一些他們沒有的東西——
DeepTech:就是什么是正確、什么是錯誤的絕對標準。
陸路: 對,傳統的科學領域有正確和錯誤的標準,工程領域也有不同的先驗知識。有了這樣的額外信息,我們就要開發額外的算法和機器學習模型。所以它們在技術上有很多可以借鑒的地方,但也有很多不一樣的東西。
DeepTech:大廠的這些模型能用到科學里嗎?
陸路:其實有一些是可以的。比如現在大家都在做 Foundation Model(基礎模型),我們如果做科學應用,大家現在也有做很多科學基礎模型。最經典的例子,我們知道做蛋白質的就有很多這樣的模型,大家已經做了好幾年了。它們的技術和大廠做的非常像,因為比如一個蛋白質序列可以看作一種語言。
DeepTech:反正都是一個序列。蛋白質序列和語言文字其實是差不多的。
陸路:對,所以很多時候有非常多的東西可以借鑒過來。我經常也會看做語言的、做計算機視覺或其他多模態的文章,也會借鑒很多他們的技術。
DeepTech: 聊完技術之后,還想聊一些更開放的問題。因為你也是從國內畢業之后到美國做研究,后來獨立帶團隊。你覺得兩國的科研環境,或者對 AI 相關技術的發展,有什么切身的感受?
陸路:像我本科畢業到現在超過十年了,其實我對國內現在的科研方式沒有那么了解了。但一般而言,差異肯定還是有的。
如果在 AI 領域不看具體細節,只看整個發展的話,我們可以看到很多新聞顯示中國的 AI 發展非常快,特別是最近幾年。不管是文章的數量,還是大廠模型的開發。雖然起步沒有美國那么早,但最近發展特別快。但如果我們只看那些最有突破性的工作,至少到目前為止,這樣的數量在美國還是更多一點。
DeepTech:基礎研究或者基礎性的科學研究。
陸路:對,但我覺得未來幾年肯定會變化。如果看趨勢的話,國內現在不管是投入還是人才儲備也越來越多了,以后肯定能看到越來越好的工作出現。
DeepTech:從讀書到帶團隊的身份轉換,你覺得有什么不同嗎?
陸路:差別挺大的。自己讀書的時候專注的就是自己的課題,把手頭一兩個課題做好就行,其他什么都不用管,比如經費是怎么來的我也不用管,只關心自己的研究。
但獨立之后就不一樣了。特別像在美國,我要招學生的話,就要給學生付學費、付工資。這一點跟國內挺不一樣的。在國內老師招一個博士生,如果只從經費層面來看,沒有那么多。但在美國非常貴。大概一個平均數字,不同學校差很多,但平均一個學生一年大概要 10 萬美元。
DeepTech:還蠻貴的。
陸路:像耶魯就更貴了,因為一般來說私校學費更高、工資也更高,學校所謂的 Overhead(管理費)也更高,比這 10 萬要多很多。所以獨立之后帶團隊,除了要做好科研,和學生討論科研怎么做、文章怎么寫,另一個非常重要的事情就是怎么去找經費。有了經費,才能給學生付工資、付學費,支持他們的科研。
DeepTech:我們今天聊了很多,從你的技術研究到拆解技術細節,陸老師把技術講解得非常清楚,也帶我們了解了 AI 解決科學問題的很多洞見。最后也聊到了科研和帶團隊的差異。最后請陸老師再總結兩句。
陸路:我可以說一下最近的一些其他方向。我一直在做的是從傳統模擬做了好幾年,然后轉到機器學習,用 AI 解方程、做建模仿真、做預測。現在我也在做一些新的工作。比如我最近開始做 AI 和量子計算的結合,怎么用量子計算來加速 AI,去處理我以前的那些問題。
另外我們也知道最近有一個非常熱門的領域叫生成式模型。比如在 ChatGPT 里可以用語言來生成一只狗、生成一幅畫。如果把這類模型引入傳統的科學計算領域,當然可以直接用,但范式上會有一些區別。所以我們最近也提出了一些不一樣的策略,怎么把生成式算法更好地和物理信息相結合。
還有我們最近的一些其他工作,希望把 AI 這個工具反過來和傳統的數值方法相結合,使得我們既能有 AI 的優勢,比如速度很快,同時又能保留傳統方法的準確性和理論保證。我們能不能兩者兼得?這也是我們最近的一些新的研究方向。
DeepTech:好,有感興趣的聽眾朋友也可以跟我們聯系,與陸老師進行進一步的交流。
陸路:好的,我的郵箱在網上都可以找到,如果大家感興趣,歡迎聯系我。
DeepTech:感謝陸老師的時間,謝謝!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.