斯坦福×英偉達(dá)發(fā)布AI推理新范式，刷新了多領(lǐng)域SOTA

2026-01-25 19:58:42　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：艾倫

【新智元導(dǎo)讀】斯坦福與英偉達(dá)聯(lián)合發(fā)布重磅論文 TTT-Discover，打破「模型訓(xùn)練完即定型」的鐵律。它讓 AI 在推理階段針對特定難題「現(xiàn)場長腦子」，不惜花費(fèi)數(shù)百美元算力，只為求得一次打破紀(jì)錄的極值。從重寫數(shù)學(xué)猜想到碾壓人類代碼速度，這種「激進(jìn)進(jìn)化」正在重新定義機(jī)器發(fā)現(xiàn)的邊界。

如果把現(xiàn)在的 AI 模型比作一個學(xué)霸，它們的工作方式通常是這樣的：在學(xué)校（預(yù)訓(xùn)練階段）讀萬卷書，把知識固化在腦子里（參數(shù)凍結(jié)）。

等到考試（推理階段）時(shí)，它們靠的是「回憶」和「邏輯推演」來答題。

即便像 OpenAI 的 o1 這種「會思考」的模型，也只是在考場上多打了打草稿（CoT思維鏈），它的大腦回路（權(quán)重）依然是鎖死的。

但就在本周，一篇名為《Learning to Discover at Test Time》的論文橫空出世，來自斯坦福大學(xué)和英偉達(dá)的研究團(tuán)隊(duì)提出了一種不僅「打草稿」，而且敢在考場上「現(xiàn)場長腦子」的新范式——TTT-Discover（Test-Time Training，測試時(shí)訓(xùn)練）。

這是對「智能」定義的再一次挑戰(zhàn)。

核心顛覆

這項(xiàng)研究的核心邏輯非常反直覺：它不追求「平均分」，它只想要那一次「滿分」。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中，我們希望訓(xùn)練出一個「全能選手」，不僅能做對這道題，以后遇到類似的題也能做對。

但 TTT-Discover 說：不，科學(xué)發(fā)現(xiàn)（Discovery）不需要「通用」。

比如我們要尋找一種能治愈癌癥的新分子，或者要找出一個數(shù)學(xué)猜想的反例。

只要我們找到了這一個答案，哪怕模型在這個過程中嚴(yán)重「偏科」，甚至為了這道題把自己練廢了（過擬合），把其他所有題都做錯了，又有什么關(guān)系呢？

只要那個答案是對的，人類就贏了。

基于這個理念，TTT-Discover 采用了一種極其激進(jìn)的策略：

現(xiàn)場進(jìn)化：在推理階段，針對當(dāng)前的特定問題，利用強(qiáng)化學(xué)習(xí)直接修改模型的參數(shù)。
賭徒心態(tài)：它修改了損失函數(shù)，不再追求「穩(wěn)健」，而是鼓勵模型去探索那些極端的、風(fēng)險(xiǎn)極高但回報(bào)可能巨大的區(qū)域。
用完即棄：這個針對特定問題進(jìn)化出來的「特種兵」模型，解完題就可以丟掉了。

戰(zhàn)績：它真的比人類聰明嗎？

「不看廣告看療效」。

這篇論文最硬核的地方，在于它挑選的對手——全是硬骨頭。

1. 數(shù)學(xué)界的「毫厘之爭」

在著名的Erd?s 最小重疊問題（一個困擾數(shù)學(xué)家數(shù)十年的數(shù)論難題）上，人類和此前最強(qiáng) AI（AlphaEvolve）的競爭已經(jīng)卷到了小數(shù)點(diǎn)后幾位。TTT-Discover 進(jìn)場后，直接把上界從 0.380924 壓低到了0.380876。

別小看這小數(shù)點(diǎn)后四位的變化，在理論數(shù)學(xué)的無人區(qū)，每推進(jìn)一步都是在重寫歷史。

它構(gòu)造出了一個極其復(fù)雜的、擁有 600 個分段的非對稱函數(shù)，而之前的人類最佳構(gòu)造只有 51 段。

這就像是人類還在用積木搭房子，AI 已經(jīng)開始用 3D 打印構(gòu)建復(fù)雜的非對稱建筑了。

2. 碾壓人類頂級程序員

在 GPU 內(nèi)核優(yōu)化（TriMul）比賽中，任務(wù)是寫出運(yùn)行速度最快的底層代碼。

這是極度考驗(yàn)工程師對硬件理解能力的領(lǐng)域。

人類第一名的代碼在 H100 顯卡上運(yùn)行耗時(shí)：1371 微秒。
TTT-Discover 寫出的代碼耗時(shí)：1161 微秒。
在 A100 顯卡上更夸張，它比人類第一名快了整整50%。

這意味著，在未來，你玩的游戲、跑的大模型，僅僅因?yàn)榈讓哟a被這種 AI 重寫了一遍，性能就能憑空提升一倍。

它發(fā)現(xiàn)了一些人類工程師完全沒想到的「騷操作」，比如極其激進(jìn)的算子融合和精度壓縮。

3. 算法競賽的降維打擊

在著名的 AtCoder 啟發(fā)式競賽（ahc039, ahc058）中，它不僅擊敗了之前最強(qiáng)的 AI 智能體，還超越了人類金牌選手的歷史最佳成績。

如果當(dāng)時(shí)它參賽，它就是當(dāng)之無愧的第一名。

冷靜一下，它不是萬能神藥

雖然戰(zhàn)績輝煌，但作為一篇嚴(yán)謹(jǐn)?shù)目破眨仨氈赋鏊摹赴⒖α鹚怪唷埂?/p>

第一，它是真的「貴」。

傳統(tǒng)的 AI 回答一個問題可能只需要幾分錢的算力。

而 TTT-Discover 為了解決一個問題，需要在測試時(shí)進(jìn)行幾千次甚至上萬次的采樣和訓(xùn)練。

論文坦承，解決單道題的成本約為500 美元（約合人民幣 3500 元）。

用來做小學(xué)奧數(shù)題？瘋了。

用來設(shè)計(jì)下一代光刻機(jī)指令？便宜得像不要錢。

第二，它是個「偏科生」。

你不能指望用這個進(jìn)化后的模型去和你聊天。

因?yàn)樗诮鉀Q那道數(shù)學(xué)題時(shí)，可能已經(jīng)把「如何說你好」這部分的腦細(xì)胞都改寫成了「如何計(jì)算微積分」。

它是為了單點(diǎn)突破而生的一次性工具。

第三，它需要「打分器」。

這是最關(guān)鍵的局限。

它目前只能解決那些「好壞顯而易見」的問題（有連續(xù)獎勵信號），比如代碼運(yùn)行速度（越快越好）、數(shù)學(xué)邊界（越小越好）。

對于「寫一首感人的詩」或者「證明黎曼猜想」（通常只有對 / 錯兩種狀態(tài)）這類問題，它目前還無能為力。

作者簡介

本文通訊作者 Yu Sun，是「Test-Time Training (TTT)」這一概念的堅(jiān)定布道者和「總設(shè)計(jì)師」，目前是斯坦福大學(xué)博士后，同時(shí)也是英偉達(dá)的研究員。

圖源：https://yueatsprograms.github.io/

他博士畢業(yè)于加州大學(xué)伯克利分校，導(dǎo)師是計(jì)算機(jī)視覺領(lǐng)域的泰斗 Alexei A. Efros 和機(jī)器學(xué)習(xí)專家 Moritz Hardt。

https://openreview.net/profile?id=~Yu_Sun1

他的「核心思想」

很多研究者會追逐不同的熱點(diǎn)（例如今天做 Diffusion，明天做 RAG），但 Yu Sun 極其罕見地死磕一個概念長達(dá) 7 年。

他的核心信仰是：「學(xué)習(xí)不應(yīng)該在訓(xùn)練結(jié)束時(shí)停止。」

他認(rèn)為現(xiàn)有的神經(jīng)網(wǎng)絡(luò)（Train-then-Freeze）是僵化的，真正的智能體應(yīng)該在推理階段（Test-Time）繼續(xù)通過參數(shù)更新來學(xué)習(xí)。

TTT 三部曲：從「修補(bǔ)」到「顛覆」

翻看他的論文列表，可以清晰地看到一條把 TTT 從邊緣推向主流的進(jìn)化路線。

1.0 時(shí)代（視覺修復(fù)）：
- 代表作：Test-Time Training with Self-Supervision (ICML 2020)
- 當(dāng)時(shí)主要處理圖片。模型在測試時(shí)如果遇到模糊或旋轉(zhuǎn)的圖片（分布偏移），就現(xiàn)場「微調(diào)」一下自己來適應(yīng)這張壞圖。這時(shí)候的 TTT 還是個「修補(bǔ)匠」，為了健壯性。

2.0 時(shí)代（架構(gòu)革命）：
- 代表作：Learning to (Learn at Test Time): RNNs with Expressive Hidden States (ICML 2025)
- 他開始挑戰(zhàn) Transformer 的核心地位。他提出要把 Attention 機(jī)制直接換成一個「快速的 TTT 過程」。這篇論文曾在 AI 社區(qū)引發(fā)巨大討論，被稱為 TTT-LM。

3.0 時(shí)代（智能進(jìn)化）：
- 代表作：TTT-Discover (2026, 本篇論文)
- 他把 TTT 用在了最硬核的科學(xué)發(fā)現(xiàn)上。不再是為了適應(yīng)壞數(shù)據(jù)，而是為了在推理時(shí)「進(jìn)化」出超越預(yù)訓(xùn)練水平的智力，去解決人類都解不開的難題。

Yu Sun 正在試圖用 TTT 重寫深度學(xué)習(xí)的底層范式——從「靜態(tài)的模型」轉(zhuǎn)向「動態(tài)的過程」。

這篇 TTT-Discover 正是他這一長期愿景的最新、也是最激進(jìn)的成果。

關(guān)于智慧的另一種想象

TTT-Discover 的出現(xiàn)，不僅是一次技術(shù)突破，更是一次哲學(xué)上的敲打。

過去我們認(rèn)為的「博學(xué)」，是像百科全書一樣無所不知。

但 AI 向我們展示了另一種更有力量的智慧形態(tài)：為了解決一個未知的難題，能夠瞬間遺忘所有無關(guān)的平庸，集中全部生命力去異化、去突變，直到成為那把唯一能打開鎖的鑰匙。

即使這種進(jìn)化是不可逆的，即使解決問題后它將不再是它。

這或許就是「發(fā)現(xiàn)」的本質(zhì)代價(jià)。

真正的探索者并不追求成為一本永恒正確的百科全書，他們更愿意做一顆為了照亮未知瞬間而燃盡自我的流星。

參考資料：

https://arxiv.org/pdf/2601.16175

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.