![]()
新智元報(bào)道
編輯:艾倫
【新智元導(dǎo)讀】斯坦福與英偉達(dá)聯(lián)合發(fā)布重磅論文 TTT-Discover,打破「模型訓(xùn)練完即定型」的鐵律。它讓 AI 在推理階段針對特定難題「現(xiàn)場長腦子」,不惜花費(fèi)數(shù)百美元算力,只為求得一次打破紀(jì)錄的極值。從重寫數(shù)學(xué)猜想到碾壓人類代碼速度,這種「激進(jìn)進(jìn)化」正在重新定義機(jī)器發(fā)現(xiàn)的邊界。
如果把現(xiàn)在的 AI 模型比作一個學(xué)霸,它們的工作方式通常是這樣的:在學(xué)校(預(yù)訓(xùn)練階段)讀萬卷書,把知識固化在腦子里(參數(shù)凍結(jié))。
等到考試(推理階段)時(shí),它們靠的是「回憶」和「邏輯推演」來答題。
即便像 OpenAI 的 o1 這種「會思考」的模型,也只是在考場上多打了打草稿(CoT思維鏈),它的大腦回路(權(quán)重)依然是鎖死的。
但就在本周,一篇名為《Learning to Discover at Test Time》的論文橫空出世,來自斯坦福大學(xué)和英偉達(dá)的研究團(tuán)隊(duì)提出了一種不僅「打草稿」,而且敢在考場上「現(xiàn)場長腦子」的新范式——TTT-Discover(Test-Time Training,測試時(shí)訓(xùn)練)。
![]()
這是對「智能」定義的再一次挑戰(zhàn)。
核心顛覆
這項(xiàng)研究的核心邏輯非常反直覺:它不追求「平均分」,它只想要那一次「滿分」。
在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,我們希望訓(xùn)練出一個「全能選手」,不僅能做對這道題,以后遇到類似的題也能做對。
但 TTT-Discover 說:不,科學(xué)發(fā)現(xiàn)(Discovery)不需要「通用」。
比如我們要尋找一種能治愈癌癥的新分子,或者要找出一個數(shù)學(xué)猜想的反例。
只要我們找到了這一個答案,哪怕模型在這個過程中嚴(yán)重「偏科」,甚至為了這道題把自己練廢了(過擬合),把其他所有題都做錯了,又有什么關(guān)系呢?
只要那個答案是對的,人類就贏了。
基于這個理念,TTT-Discover 采用了一種極其激進(jìn)的策略:
現(xiàn)場進(jìn)化:在推理階段,針對當(dāng)前的特定問題,利用強(qiáng)化學(xué)習(xí)直接修改模型的參數(shù)。
賭徒心態(tài):它修改了損失函數(shù),不再追求「穩(wěn)健」,而是鼓勵模型去探索那些極端的、風(fēng)險(xiǎn)極高但回報(bào)可能巨大的區(qū)域。
用完即棄:這個針對特定問題進(jìn)化出來的「特種兵」模型,解完題就可以丟掉了。
![]()
戰(zhàn)績:它真的比人類聰明嗎?
「不看廣告看療效」。
這篇論文最硬核的地方,在于它挑選的對手——全是硬骨頭。
![]()
1. 數(shù)學(xué)界的「毫厘之爭」
在著名的Erd?s 最小重疊問題(一個困擾數(shù)學(xué)家數(shù)十年的數(shù)論難題)上,人類和此前最強(qiáng) AI(AlphaEvolve)的競爭已經(jīng)卷到了小數(shù)點(diǎn)后幾位。TTT-Discover 進(jìn)場后,直接把上界從 0.380924 壓低到了0.380876。
別小看這小數(shù)點(diǎn)后四位的變化,在理論數(shù)學(xué)的無人區(qū),每推進(jìn)一步都是在重寫歷史。
![]()
它構(gòu)造出了一個極其復(fù)雜的、擁有 600 個分段的非對稱函數(shù),而之前的人類最佳構(gòu)造只有 51 段。
![]()
這就像是人類還在用積木搭房子,AI 已經(jīng)開始用 3D 打印構(gòu)建復(fù)雜的非對稱建筑了。
2. 碾壓人類頂級程序員
在 GPU 內(nèi)核優(yōu)化(TriMul)比賽中,任務(wù)是寫出運(yùn)行速度最快的底層代碼。
這是極度考驗(yàn)工程師對硬件理解能力的領(lǐng)域。
人類第一名的代碼在 H100 顯卡上運(yùn)行耗時(shí):1371 微秒。
TTT-Discover 寫出的代碼耗時(shí):1161 微秒。
在 A100 顯卡上更夸張,它比人類第一名快了整整50%。
![]()
這意味著,在未來,你玩的游戲、跑的大模型,僅僅因?yàn)榈讓哟a被這種 AI 重寫了一遍,性能就能憑空提升一倍。
它發(fā)現(xiàn)了一些人類工程師完全沒想到的「騷操作」,比如極其激進(jìn)的算子融合和精度壓縮。
3. 算法競賽的降維打擊
在著名的 AtCoder 啟發(fā)式競賽(ahc039, ahc058)中,它不僅擊敗了之前最強(qiáng)的 AI 智能體,還超越了人類金牌選手的歷史最佳成績。
![]()
如果當(dāng)時(shí)它參賽,它就是當(dāng)之無愧的第一名。
冷靜一下,它不是萬能神藥
雖然戰(zhàn)績輝煌,但作為一篇嚴(yán)謹(jǐn)?shù)目破眨仨氈赋鏊摹赴⒖α鹚怪唷埂?/p>
第一,它是真的「貴」。
傳統(tǒng)的 AI 回答一個問題可能只需要幾分錢的算力。
而 TTT-Discover 為了解決一個問題,需要在測試時(shí)進(jìn)行幾千次甚至上萬次的采樣和訓(xùn)練。
論文坦承,解決單道題的成本約為500 美元(約合人民幣 3500 元)。
用來做小學(xué)奧數(shù)題?瘋了。
用來設(shè)計(jì)下一代光刻機(jī)指令?便宜得像不要錢。
第二,它是個「偏科生」。
你不能指望用這個進(jìn)化后的模型去和你聊天。
因?yàn)樗诮鉀Q那道數(shù)學(xué)題時(shí),可能已經(jīng)把「如何說你好」這部分的腦細(xì)胞都改寫成了「如何計(jì)算微積分」。
它是為了單點(diǎn)突破而生的一次性工具。
第三,它需要「打分器」。
這是最關(guān)鍵的局限。
它目前只能解決那些「好壞顯而易見」的問題(有連續(xù)獎勵信號),比如代碼運(yùn)行速度(越快越好)、數(shù)學(xué)邊界(越小越好)。
對于「寫一首感人的詩」或者「證明黎曼猜想」(通常只有對 / 錯兩種狀態(tài))這類問題,它目前還無能為力。
作者簡介
本文通訊作者 Yu Sun,是「Test-Time Training (TTT)」這一概念的堅(jiān)定布道者和「總設(shè)計(jì)師」,目前是斯坦福大學(xué)博士后,同時(shí)也是英偉達(dá)的研究員。
![]()
圖源:https://yueatsprograms.github.io/
他博士畢業(yè)于加州大學(xué)伯克利分校,導(dǎo)師是計(jì)算機(jī)視覺領(lǐng)域的泰斗 Alexei A. Efros 和機(jī)器學(xué)習(xí)專家 Moritz Hardt。
![]()
https://openreview.net/profile?id=~Yu_Sun1
他的「核心思想」
很多研究者會追逐不同的熱點(diǎn)(例如今天做 Diffusion,明天做 RAG),但 Yu Sun 極其罕見地死磕一個概念長達(dá) 7 年。
他的核心信仰是:「學(xué)習(xí)不應(yīng)該在訓(xùn)練結(jié)束時(shí)停止。」
他認(rèn)為現(xiàn)有的神經(jīng)網(wǎng)絡(luò)(Train-then-Freeze)是僵化的,真正的智能體應(yīng)該在推理階段(Test-Time)繼續(xù)通過參數(shù)更新來學(xué)習(xí)。
TTT 三部曲:從「修補(bǔ)」到「顛覆」
翻看他的論文列表,可以清晰地看到一條把 TTT 從邊緣推向主流的進(jìn)化路線。
1.0 時(shí)代(視覺修復(fù)):
代表作:Test-Time Training with Self-Supervision (ICML 2020)
當(dāng)時(shí)主要處理圖片。模型在測試時(shí)如果遇到模糊或旋轉(zhuǎn)的圖片(分布偏移),就現(xiàn)場「微調(diào)」一下自己來適應(yīng)這張壞圖。這時(shí)候的 TTT 還是個「修補(bǔ)匠」,為了健壯性。
![]()
2.0 時(shí)代(架構(gòu)革命):
代表作:Learning to (Learn at Test Time): RNNs with Expressive Hidden States (ICML 2025)
他開始挑戰(zhàn) Transformer 的核心地位。他提出要把 Attention 機(jī)制直接換成一個「快速的 TTT 過程」。這篇論文曾在 AI 社區(qū)引發(fā)巨大討論,被稱為 TTT-LM。
![]()
3.0 時(shí)代(智能進(jìn)化):
代表作:TTT-Discover (2026, 本篇論文)
他把 TTT 用在了最硬核的科學(xué)發(fā)現(xiàn)上。不再是為了適應(yīng)壞數(shù)據(jù),而是為了在推理時(shí)「進(jìn)化」出超越預(yù)訓(xùn)練水平的智力,去解決人類都解不開的難題。
Yu Sun 正在試圖用 TTT 重寫深度學(xué)習(xí)的底層范式——從「靜態(tài)的模型」轉(zhuǎn)向「動態(tài)的過程」。
這篇 TTT-Discover 正是他這一長期愿景的最新、也是最激進(jìn)的成果。
關(guān)于智慧的另一種想象
TTT-Discover 的出現(xiàn),不僅是一次技術(shù)突破,更是一次哲學(xué)上的敲打。
過去我們認(rèn)為的「博學(xué)」,是像百科全書一樣無所不知。
但 AI 向我們展示了另一種更有力量的智慧形態(tài):為了解決一個未知的難題,能夠瞬間遺忘所有無關(guān)的平庸,集中全部生命力去異化、去突變,直到成為那把唯一能打開鎖的鑰匙。
即使這種進(jìn)化是不可逆的,即使解決問題后它將不再是它。
這或許就是「發(fā)現(xiàn)」的本質(zhì)代價(jià)。
真正的探索者并不追求成為一本永恒正確的百科全書,他們更愿意做一顆為了照亮未知瞬間而燃盡自我的流星。
參考資料:
https://arxiv.org/pdf/2601.16175
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.