全文 2,000字 | 閱讀約 6 分鐘
![]()
(陶哲軒做客 Brian Keating 播客訪談精彩片段)
剛剛上線的一期播客節目中。
菲爾茲獎得主陶哲軒說:AI 最危險的地方,不是它不會,而是它錯得太像對了。
AI 把一段推理寫得滴水不漏。邏輯鏈完整,術語齊全,語氣篤定。你一讀,就有點信了。
可問題是:你無法確認它是不是真的對。
它為什么這么說?
如果錯了誰能看出來?
能不能被復現?
能不能被驗收?
這些基本問題,AI一落地就會遇到。這不是技術問題,而是責任問題。陶哲軒在節目中從三個層面剖析了這個問題:AI如何模仿、為什么缺乏判斷、以及為什么難以驗證。
他的結論是:當 AI 的產出越來越像真的,驗證它沒錯的能力,才是真正稀缺的。
這篇文章只圍繞一個問題:你有沒有能力確認 AI 沒錯?
第一節: 模仿|AI 在復制思維的外殼
陶哲軒說,現在的 AI 在做數學時,看起來什么都會,但實際上,它根本不知道自己在做什么。
它能寫出一段看起來像證明的內容,有定理、有步驟、有“所以”,語氣還挺自然。
但如果你深入追問一句:你為什么這么寫?
他指出,AI 給的答案完全是邏輯不通(complete nonsense)。明顯看出它根本不知道自己在說什么。
這種 AI 更像是一個緊張的學生,在黑板前快速把訓練中見過的內容拼湊出來,但他自己不理解這個推理是否合理。
更麻煩的是,你很難確認 AI 是真的推導出來的,還是只是在復述訓練數據。
陶哲軒把這個叫做“Contamination”(數據污染):教科書里有的定理、例題,AI 在訓練時都見過。它可能只是在重復訓練時見過的內容,而不是在思考。這也是目前大模型在專業領域的一個共同問題:它很會模仿,但不具備判斷力。
人類在做一道數學題時,會有基本的直覺。
但 AI 沒有。
它是從海量語料中,找到最可能出現的句子接著往下寫。它輸出的不是邏輯,而是統計概率。
這導致了一個危險后果:這些模型說得越像人、表達越自然,我們越容易下意識相信它是對的,而不去查每一步推理是否真的成立。
尤其在數學里,只要有一環錯了,整個結論就全盤崩塌。但 AI 不會告訴你哪一步有問題,它甚至不知道它錯了。
這不是 AI 錯得離譜,而是錯得太像真的了,這才是陶哲軒最擔憂的地方。
第二節: 動機|AI說不清為什么這么做
“那它為什么能錯得這么像?”
在陶哲軒看來,AI 在數學里的表現,不止是缺邏輯,更嚴重的是它對問題本身沒有理解。
一個真正懂數學的人,在面對一個新問題時,心里首先會冒出的是:
這個問題值不值得解?
它跟哪些已知知識有關?
有沒有什么有趣的定理或者公式可以利用?
而 AI 沒有這種判斷。
它寫出某個定理,不是因為它知道這個定理在證明中起關鍵作用,而是見過這樣的證明,就照著寫。
陶哲軒強調,AI 不具備價值判斷,它不知道這件事為什么重要,也不知道哪些問題更值得解決。數學世界里最難的從來不是怎么做,而是做什么。
一個真正的突破,往往來自提了一個沒人想到的問題。
但 AI 只能解決現成的問題,沒法提出新問題。
這就是 AI 的本質:它能幫你回憶已知的東西,但你必須自己判斷哪些是真的、哪些更有價值。
AI 不知道什么重要、什么不重要。它不是不會做,而是不知道該做什么。
因為它缺乏動機。
第三節: 驗證|AI 寫的東西過不了檢查
就算 AI 知道該做什么,還有一個更致命的問題:它寫出來的東西,往往過不了檢查。
在數學里,答案只是起點,真正重要的,是你怎么一步步推出來的。
一個結論成立,不是因為它聽起來合理,而是因為它可以被檢查、被追溯、被驗證。
數學家出錯是正常的,大師也不例外。但人類的證明有個優勢:推導過程清晰。所以哪怕有漏洞,同行也能檢查出問題。
而 AI 給出的,缺少這種推導過程。
這不只是數學問題。
律師用 AI 生成法律文書,發現引用的判例根本不存在。據報道,有律師因為沒驗證 AI 生成的案例引用,在法庭上被當場拆穿,最后被罰款。
程序員用 AI 寫代碼,看起來能跑,但埋了安全漏洞。 沒仔細審查就上線,等發現時損失已經造成。
金融分析師用 AI 生成投資報告,數據來源、計算邏輯都說不清楚。 你敢拿這個給客戶做決策嗎?
問題的核心都一樣:AI 給你一個“看起來對”的結果,但你很難驗證每一步是否站得住腳。
怎么辦?陶哲軒的答案是:
只在你能驗證的范圍內使用 AI。
也就是說,不是不用 AI,而是必須把 AI 和驗證工具配對使用。AI 負責生成,人類或自動驗證系統負責檢查。
超出驗證能力的部分,不要碰。
在這個前提下,AI 的價值在哪?
陶哲軒認為,AI 的真正價值,不在于攻克那些最頂級的數學難題,而在于處理數百萬個不夠重要、不值得頂尖數學家花時間、但又有一定價值的中等難度問題。
這些問題數量太大,人類研究者太少,處理不過來。而 AI 的優勢恰恰在于規模:哪怕它只能解決這 100 萬個問題中的10%,那也是 10 萬個已解決的問題。
除了批量處理,在日常研究中,AI 也能發揮輔助作用。 比如文獻綜述:某類問題可能已經有十幾種解決方法,你在研究時可能記得六個,忘了另外六個。這時 AI 能提醒你那些你忘記的方法。當然,它可能還會幻覺出三個根本不存在的方法,所以你必須驗證。
甚至,AI 還能幫你從數據中找到隱藏的規律。
陶哲軒舉了一個實際案例:紐結理論中,有個叫 signature 的不變量,神經網絡發現它可以從一堆其他不變量中高精度預測出來。
一開始這只是個黑箱:你輸入20個數,它吐出一個預測,90%的時候是對的。但研究者可以分析這個黑箱,調整輸入,看輸出怎么變化。
最后他們發現:這20個輸入里,3個真正重要,另外17個幾乎沒用。通過這種分析,他們反推出了背后的數學關系,最終證明了它。
這些才是 AI 的正確用法:不是讓它直接給答案,而是讓它提供線索、找出可能性,然后由人類去判斷、去驗證、去決策。
無論是數學研究、法律文書、代碼審查,還是投資分析,AI 適合當批量處理工具和輔助工具,而不是最終決策者。
前提是:有人能驗收它生成的內容,確認哪些能用、哪些不能用。
用 AI,可以。
但要記住一句話:信任,但必須驗證。
結語|它不是會做數學,是在表演“會”
AI 最危險的,不是它不會,是它表現得像會。
它能寫出看起來完整的推理,但說不清為什么。
它能復述訓練數據里的內容,但判斷不了重要性。
它能排列出推理的格式,但經不起逐步檢查。
你很難從表面判斷:它是真懂,還是在照搬?是在推理,還是在東拼西湊?
這才是陶哲軒真正擔心的事:
AI 做得越像真的,你就越容易信它。但它錯得也越像對的,你就越難發現。
識自AI
本文由AI深度研究院出品,內容翻譯整理自陶哲軒在 Brian Keating 播客訪談等網上公開素材,屬翻譯整理性質。內容為原文翻譯與合理編譯,未逐字復制原訪談材料。未經授權,不得轉載
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:
https://www.youtube.com/watch?v=ukpCHo5v-Gc&t=1614s
https://pmc.ncbi.nlm.nih.gov/articles/PMC5352490/?utm_source=chatgpt.com
https://www.lingexp.uni-tuebingen.de/z2/Morphology/baroni.rows
https://x.com/DrBrianKeating
https://mathstodon.xyz/%40tao/114967652676795985
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.