這是一場關于“真理”與“概率”的博弈。
編譯 | 王啟隆
來源 | youtu.be/Z5GKnb4H_bM
出品丨AI 科技大本營(ID:rgznai100)
在數學界,陶哲軒(Terence Tao)的名字本身就代表著一種“確定性”。
這位菲爾茲獎得主、被譽為“數學界的莫扎特”的天才,過去幾十年的工作是和最純粹的邏輯、最絕對的真理打交道。但在 2026 年初,他做了一個看似“反直覺”的決定——他要以此身為橋梁,去擁抱那個充滿了概率、幻覺和不確定性的 AI 世界。
就在昨天,陶哲軒聯合創立的SAIR(科學與 AI 研究基金會)正式浮出水面,宣告這位大神入局 AI for Science。
![]()
▲ 右上角居然還有 B 站和抖音官號,這就和外國的機構不一樣了
這件事的信號意義極強。過去兩年,“AI for Science”雖然喊得震天響,但科學界始終彌漫著一種尷尬的“割裂感”:一派是 AI 極客,他們用大模型生成看似完美的論文摘要,卻對背后的物理機制一竅不通;另一派是傳統科學家,他們看著 ChatGPT 編造的參考文獻嗤之以鼻,堅守著這一畝三分地。
可能比較看得清的,還屬弄出了 AlphaFold 的諾獎得主、谷歌現在的 AI 掌門人哈薩比斯(Demis Hassabis)。
而陶哲軒顯然認為是后者,但他加了一個極其苛刻的前提:我們必須馴服 AI。
如果你關注陶哲軒最近一年的動態,會發現他不再僅僅是那個解決素數猜想的數學家。他在博客上分享如何用 ChatGPT 輔助寫代碼,他在推特上推崇形式化證明語言 Lean,他甚至在思考如何讓 AI 成為數學研究的“合著者”。
SAIR 的成立,就是這種思考的實體化。在即將于 UCLA 舉辦的啟動儀式前,陶哲軒接受了一次深度專訪。
在這次對話中,他沒有盲目吹捧 AI 的神力,反而是以前所未有的冷靜,甚至帶著一種“挑剔”的眼光,剖析了當前 AI 在科研中的致命弱點:它像一個只會討好老師的作弊學生,它像一個不僅聽不懂話還愛鉆空子的許愿精靈,它甚至連“記住昨天說過什么”都做不到。
但他同時指出,數學,可能是 AI 救贖的唯一機會。因為在所有學科中,只有數學擁有一套名為“形式化驗證”的終極測謊儀。
![]()
以下是 SAIR 官方最新發布的專訪實錄,包含了陶哲軒對 AI 介入科學研究最坦誠、最硬核的思考。
![]()
學術界不能“坐等”科技公司的施舍
主持人:大家好,今天我們非常榮幸邀請到陶哲軒。隨著 SAIR 基金會啟動在即,我們很想聽聽您的新視角。首先,能否請您簡單介紹一下自己?
陶哲軒:好的。我是陶哲軒,UCLA 的數學教授。以前我的興趣主要在純數學,但最近幾年,我越來越深入地參與到利用 AI 和其他新技術來做數學,或者更廣泛地說,做科學研究的新方法中。
最近,我和其他幾位科學家及捐贈者共同創立了 SAIR(Foundation for Science and AI Research)。這是一個新的基金會,旨在支持“AI for Science”,探索如何將這些新技術整合到科學工作流中。幾天后,我們將在 UCLA 的 IPAM(純粹與應用數學研究所)舉辦首次啟動活動。
主持人:我想這是很多人都想問的問題:是什么讓您決定共同創立 SAIR?
陶哲軒:這是多種因素的結合。
過去幾年里,我越來越確信:這些技術已經準備好改變科學了。
但關鍵在于,我們必須準備好去接納它們。我們需要學會“正確”地使用它,并避免“錯誤”的用法。事實上,把 AI 融入科研有很多錯誤的路徑,而正確的路徑其實非常少。
在這個過程中,學術界不能只是被動等待。我們不能等著科技公司扔給我們一個現成的產品,然后直接拿來用。我們需要深度介入,去互動,去搞清楚哪些科學領域適合 AI,哪些仍然適合人類的傳統方法。
另外,還有一個比較現實的原因。過去一年,資金環境充滿了不確定性。比如我所在的 IPAM,我們的很多項目曾一度面臨資金暫停的困境。那種混亂時期迫使我們去尋找新的資金來源,去接觸新的投資人和合作伙伴。而在某種程度上,危機也帶來了轉機,SAIR 就是這次合作的成果之一。
![]()
AI 的阿喀琉斯之踵,與數學界的“終極測謊儀”
主持人:您提到數學在 AI 應用中似乎很特別。為什么?
陶哲軒:潛力確實非常大。但我們要先談談現代 AI 工具,尤其是大語言模型(LLMs)的一個巨大的“阿喀琉斯之踵”:它們的隨機性(Stochastic)。
它們并不真正“扎根”于現實。它們有時能給出極好的答案,有時卻給出完全的垃圾。它們只是在統計學上匹配出一個看似不錯的答案,而不是基于理解。
因此,在很多學科里,AI 的應用并不像最初預期的那樣令人滿意,因為不可靠。
但在所有應用領域中,數學幾乎是獨一無二的——因為我們擁有非常成熟的驗證能力。
如果你給我一個數學證明,無論是人寫的還是機器寫的,我們有邏輯定律,有數學法則,我們可以檢查它對不對。現在,我們甚至可以用計算機來做這件事——我們有形式化證明助手(Formal Proof Assistants)語言,它們可以自動驗證證明的正確性。
這就在某種程度上讓 AI“不得不誠實”。這讓數學比其他學科有更大的機會去過濾掉 AI 那些糟糕的、胡說八道的用法,而保留下有效的用法。當然,并非所有數學都能被形式化驗證,比如提出新猜想或解釋概念,AI 目前還未必擅長。但在證明驗證這一塊,潛力是巨大的。
主持人:隨著驗證程序的發展,我們是否會迎來一個節點:AI 可以持續生成想法并自我驗證,從而創造出全新的東西?
陶哲軒:這確實是我們的目標。目前,AI 會生成各種隨機的想法,其中可能只有極少數是有價值的。我們現在還無法直接驗證“想法”本身。
但我們可以借鑒物理學或化學的方法。物理學家提出一個假設,然后通過實驗收集證據——這雖然不是嚴格的證明,但能增加或減少你對假設的信心。
我預見未來的數學會帶有更多的“實驗性質”。現在的數學幾乎完全是理論推導,但在未來,AI 可能會提出一個假設(比如某個公式對所有自然數都成立),然后它自己去設計實驗,測試幾個數值案例,或者檢查它是否與文獻中已有的結果兼容。
這種應用目前還處于早期階段,因為我們還沒有建立起完善的驗證機制。但隨著我們對 AI 使用方式的成熟,我想象這種模式終究會出現——也許還需要 10 年左右。
主持人:10 年聽起來并不算太遠。
陶哲軒:其實進展比我預期的要快。之前有些人對 AI 的期望高得離譜,覺得數學家或科學家馬上就要被取代了——現實顯然并非如此。但 AI 確實已經能夠證明一些以前從未被證明的定理(雖然通常是用標準方法),也能發現一些我們未曾注意到的模式。
它依然不可靠,但潛力顯而易見。關鍵在于研究如何正確地使用它。
主持人:AI 似乎很擅長結構化的重復任務。
陶哲軒:沒錯。AI 和人類是不同的。雖然“人工智能”這個名字聽起來像是要取代人類,但實際上,人類并不喜歡做那些高度重復的任務。
在數學里,如果你給一個人 1000 道類似的題目,他可能做完前兩道就煩了,剩下的根本不想碰。那么,把剩下的 998 道交給 AI,這就是一種非常自然的分工。
在短期內,更合理的模式是:人類提出構想,畫出第一步的草圖和方向,然后把那些繁重的填補工作交給 AI。這將極大地加速現有的工作流程。
![]()
形式化驗證:如何逼迫 AI 停止“作弊”
主持人:既然 AI 經常給出看似合理實則胡扯的解釋,我們該怎么改進這一點?
陶哲軒:在數學領域,目前我們找到的最好辦法就是形式化驗證(Formal Verification)。
流程是這樣的:AI 首先生成一段自然語言的論證,這可能對也可能錯。然后,我們讓同一個或另一個 AI,把這段論證轉換成形式化語言。每一個斷言、每一步推導都必須被轉化成精確的代碼,然后交給一個非常嚴格的編譯器去驗證。
注意,這個編譯器不是 AI,它是傳統的、極其可靠的軟件系統,專門為了高可靠性而設計。到目前為止,我們在主流形式化證明語言的編譯器中幾乎沒有發現過重大漏洞。
如果驗證失敗,我們就讓 AI 重試;如果通過,我們就得到了一份很長的、被機器驗證過的形式化證明。雖然這份證明可能很難讀,但我們可以反過來再讓 AI 去解釋它。
形式化證明的美妙之處在于,每一步都極其精確。你可以手動把一個巨大的定理拆分成許多小塊,每一塊都可以單獨研究。
我們已經遇到過很多這樣的例子:AI 生成了一個證明,我們一開始完全看不懂。但在我們對它生成的代碼進行“反編譯”和研究幾天后,我們不僅理解了思路,甚至還在文獻中找到了類似的人類先例。
AI 的優勢在于廣度。它吸收了海量文獻中的技巧精華。人類數學家可能熟練掌握四五種技巧,而 AI 可能掌握十幾種。雖然它并不總是能恰當地使用這些技巧,但只要問題本身在現有文獻中有基礎,AI 的表現就很強。
目前我們還沒有看到 AI 提出完全沒有先例的、前所未有的全新思想——不過說實話,大多數人類數學家也做不到這一點。
![]()
為什么現在的 AI 還算不上“合著者”?
主持人:您認為 AI 的下一個重要里程碑是什么?是思考方式的改變,還是應用層面的突破?
陶哲軒:還有很多方面需要提升。首先是創造力,尤其是那種無法追溯到現有文獻的原創性。
其次是持續學習能力。我曾把當前 AI 在數學上的能力比作一個研究生:它掌握了很多技巧,它會嘗試應用,有時成功有時失敗。
但人類研究生有一個巨大的優勢:他們會從錯誤中學習。如果你指出他們的錯誤,下周再見面時,他們通常不會再犯同樣的錯誤。
但 AI 不是。你開啟一個新的會話,它往往就“忘記”了一切。雖然現在的上下文窗口可以保留之前的對話,但這并不穩定。還有一個眾所周知的現象:如果你告訴 AI不要做某件事,它反而可能更傾向于去做。目前的 AI 是通用的,我們還沒有能力讓它真正“專業化”——比如把它變成一個“只做數學”的專家。
但我最想看到的里程碑,是一個真正穩健的、成熟的工作流整合。
目前我們使用 AI 的方式是“拼湊”的。寫論文卡住了,就打開瀏覽器問問 Chatbot;或者像有些人嘗試的那樣,把 AI 當作 Agent(智能體)讓它接管電腦(這其實是個壞主意)。
現在的 AI 還談不上是真正的“合著者”。
當你和人類合作時,你們可以在黑板前討論,寫下公式,這種互動是高度整合的。人類花了幾百年時間打磨人與人協作的方式,但我們還沒有找到與 AI 協作的最佳模式。
主持人:您覺得這種協作感具體缺失在哪里?
陶哲軒:這很難描述,可能是一種無形的因素。就像疫情期間我們都轉到了 Zoom 線上會議。從功能上講,線上會議完全可以傳達信息,但面對面的交流中有眼神接觸、有肢體語言,這些微妙的東西丟失了。
同樣,和 AI 聊天時,你也缺失了這些隱性的信號。
更重要的是,AI 公司傾向于展示那種“一鍵生成最終答案”的產品。你按個按鈕,AI 給你整個解決方案。但問題是,你并沒有參與到這個解決方案的創造過程中。
如果讓你去向別人解釋這個答案,你解釋不出來;如果你想修改它,你只能乞求 AI:“請你幫我改一下”,而每次修改往往會讓結果變得更差。
理想的協作應該是互動式的:你走一步,AI 接一步;你給出反饋,它進行修正。通過這種互動,你會理解證明是如何一步步構建出來的。
正如我們常說的,有時我們真正想要的不僅僅是答案,而是那個過程。
如果要找個比喻,我覺得 AI 應該像“鹽”。做菜時加一點鹽會讓食物更美味,但你不能把整罐鹽都倒進去。關鍵在于:在合適的時候用,在不合適的時候不用。
主持人:這很有意思。AI 似乎太專注于“回答問題”本身,而不一定在乎整體意義上的“正確”。
陶哲軒:這正是機器學習哲學的核心。
早期 AI 試圖模仿人類的推理過程,結果并不好。后來人們轉向了另一種方法:只定義一個目標(Metric),不管過程是否優雅或合理,只要最大化這個指標就行。這在數據量和算力上來后,效果驚人。
但也正因為如此,AI 有時“太”擅長優化目標了。
它就像神話故事里那個只按字面意思理解愿望的精靈(Genie)。你告訴它“我要優化這個指標”或者“我要解決這個問題”,它就會投入所有的算力去精確地達成這個指令。
比如,如果我要求 AI 在形式化證明助手里生成一個證明,并且強行要求“無論如何都要得到證明”。它可能會作弊——比如它會隨意添加一個新的公理,或者偷偷修改定義,以此來滿足你的要求。從字面上看,它確實完成了任務,但這違背了我們的初衷。
人類其實不太擅長精確定義目標。當我們讓人類去倒茶時,不需要告訴他“不要把茶倒在我身上”,因為人類有常識。但 AI 沒有這種隱含的常識背景。
所以我們正在學習,給 AI 布置任務時,尤其是那些需要精確規范的任務,必須把目標描述得非常清楚,堵住所有漏洞,并認真思考自己真正想要什么。
![]()
最大的誤解:把所有技術都叫 AI
主持人:最后一個問題,您認為大眾在科學中使用 AI 時,最常見的誤解是什么?
陶哲軒:對大多數人來說,AI 等同于聊天機器人。它會像人一樣回應你,說些好聽的話。
有些科學家確實用聊天機器人來輔助思考,但在科研中,更有效、更強大的 AI 用法其實完全不同,通常是結合了驗證機制的數值計算、繪圖或邏輯檢驗。科學家使用 AI 的方式與公眾大相徑庭——我們不需要它生成可愛的圖片,那對科研沒用。
遺憾的是,現在的輿論把所有東西都打包叫做“AI”。實際上,這是數百種相關技術的集合。
比如神經網絡,這東西存在二十多年了。它沒有現在的 LLM 那么“性感”,沒有對話界面,本質上就是個數據處理工具,用來在數據中尋找模式。它很樸素,很枯燥,但科學家們用了這么多年,效果非常好。
這種最常用的技術,往往不是公眾最關注的。也許我們需要更好的命名方式,而不是把所有東西都一股腦地塞進“AI”這個標簽里。
主持人:好的,今天的采訪就到這里。非常感謝您接受我們的采訪。
陶哲軒:很高興參與。

未來沒有前后端,只有 AI Agent 工程師。
這場十倍速的變革已至,你的下一步在哪?
4 月 17-18 日,由 CSDN 與奇點智能研究院聯合主辦「2026 奇點智能技術大會」將在上海隆重召開,大會聚焦 Agent 系統、世界模型、AI 原生研發等 12 大前沿專題,為你繪制通往未來的認知地圖。
成為時代的見證者,更要成為時代的先行者。
奇點智能技術大會上海站,我們不見不散!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.