<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      斯坦福聯合英偉達TTT-Discover:用測試時強化學習攻克科學難題

      0
      分享至





      機器之心編輯部

      在技術如火如荼發展的當下,業界常常在思考一個問題:如何利用 AI 發現科學問題的新最優解?

      一個普遍的解法是「測試時搜索」(Test-time search),即提示一個凍結的(不更新參數的)大語言模型(LLM)進行多次嘗試,這一點類似人類在做編程作業時的「猜」解法,尤其是進化搜索方法(如 AlphaEvolve),會將以往的嘗試存入緩沖區,并通過人工設計、與領域相關的啟發式規則生成新的提示。

      可是,盡管這些提示能夠幫助 LLM 改進以往的解法,但 LLM 本身并不會真正提升,就像一個學生始終無法內化作業背后的新思想一樣。

      實際上,能夠讓 LLM 真正進步的最直接方式是學習。

      盡管「學習」和「搜索」都能隨著算力擴展而良好地增長,但在 AI 的發展歷史中,對于圍棋、蛋白質折疊等這類困難問題,「學習」往往最終超越了「搜索」。因為,科學發現本質是:超出訓練數據與人類現有知識的 out-of-distribution 問題。

      為此,斯坦福大學、英偉達等機構聯合提出一種新方法:在測試時進行強化學習(RL),即讓 LLM 在嘗試解決特定測試問題的過程中持續訓練自己。



      • 論文鏈接:https://www.alphaxiv.org/abs/2601.16175
      • 項目地址:https://github.com/test-time-training/discover

      具體來看,團隊只是把單個測試問題定義為一個環境,并在其中執行強化學習(RL),因此任何標準 RL 技術原則上都可以應用。然而,需要注意的是,這里的目標與標準 RL 存在關鍵差異,這里的目標不是讓模型在各類問題上平均表現更好,而是只為了解決眼前這一個問題,并且只需要產出一個優秀的解決方案,而不是平均產生多個良好的解決方案。

      團隊將該方法命名為「Test-Time Training to Discover」(TTT-Discover)。為了適應上述目標,其學習目標函數和搜索子程序都旨在優先考慮最有希望的解決方案 。

      結果顯示,該方法在多種任務上取得了好成績,包括擊敗了 DeepMind 的 AlphaEvolve;數學領域 在 Erd?s 最小重疊問題上取得了新突破;在 GPUMode 競賽中,開發出了比人類最佳內核快兩倍的全新 A100 GPU 內核;在 AtCoder 測試中超越了最佳 AI 代碼和人類代碼;在單細胞分析的去噪任務中取得最好成績……

      值得注意的是,該方法在使用開放模型 OpenAI gpt-oss-120b 基礎上,計算成本非常低,通過使用 Thinking Machines 的API Tinker ,每個問題只需花費幾百美元。

      在業界看來,TTT-Discover 所提出的理念,或為持續學習打開了新的想象空間。



      TTT-Discover 方法創新

      下圖展示了 TTT-Discover 的核心機制,展示 TTT-Discover 在測試階段針對單個問題持續對大語言模型(LLM)進行訓練,記 πθi 為在測試時訓練第 i 步更新權重后的策略。該圖繪制的是 TTT-Discover 在 GPUMode TriMul 競賽中測試時,第 0 步、第 9 步、第 24 步以及第 49 步(最終階段)的獎勵分布情況,每一步都會生成 512 個候選解。

      可以看到,隨著訓練過程的推進,LLM 逐漸生成更優的解,并最終超越了以往的最優結果(即人類最佳方案)。



      需要注意的是,TTT-Discover 沒有直接套用標準的 RL 算法(如 PPO/GRPO)。

      因為團隊認為,標準 RL 優化的是期望獎勵(平均分),而科學探索只在乎最大獎勵(最高分),只要能找到一個突破性的解,策略在其他時候表現差也沒關系;這樣的策略容易讓發現探索僅僅止步于「安全但平庸」的高分區域,而不敢去嘗試可能帶來突破的高風險區域。另外,傳統算法每次都是從頭開始,無法逐步演化復雜解。

      為此,團隊引入兩個關鍵組件來解決上述問題。

      一是熵目標函數,作用是通過指數加權來極端地偏向高獎勵樣本。隨著 β → ∞,熵目標函數趨近于最大值(max)。然而,團隊發現,在訓練早期若 β 過大,會導致訓練不穩定;在訓練后期若 β 過小,則隨著改進幅度越來越微小,優勢函數會逐漸消失,這說明為不同任務設定一個統一且固定的 β 常數是非常困難的。

      為此,團隊為每一個初始狀態自適應地設置 β(s),通過約束由該目標函數誘導的策略的 KL 散度來實現。



      二是受 PUCT 啟發的狀態復用策略,采用該規則來選擇初始狀態。每個狀態 s 的評分為:



      其中,Q (s) 表示當初始狀態為 s 時所生成狀態中的最大回報(如果 s 尚未被選擇過,則取 R (s))。不同于以往研究中采用「平均回報」的做法,團隊在 Q (s) 中使用的是子狀態的最大回報,這也是關注的核心是從某個狀態出發所能達到的最佳結果,而不是平均結果。這種設計確保搜索集中在最有前景的解決路徑上,同時保持多樣性。

      整體來看,熵目標和 PUCT 復用策略的結合使 TTT-Discover 能夠優先發現單一的最高獎勵解決方案,而不是多個解決方案的平均表現。

      結果評估

      團隊在四個截然不同的領域 —— 數學、GPU 內核工程、算法設計和生物學問題上評估了 TTT-Discover。

      除了考慮潛在的影響力外,選擇領域的標準還考慮到兩個方面,首先,選擇能夠將自身表現與人類專家進行比較的領域,例如,可以通過與人類工程競賽中的最佳提交方案或學術論文中報告的最佳結果進行對比來實現,比如數學和算法設計,可以說是近期相關工作取得非常大進展的領域之一。

      在每個應用中,團隊都報告了已知的人類最佳結果和 AI 最佳結果。

      可以看到,在數學領域,關于構造數學對象(如階躍函數)來證明不等式的更緊致邊界 ——Erd?s 最小重疊問題任務上,之前人類最佳表現是 0.380927、AI 最佳表現 (AlphaEvolve) 是 0.380924,而 TTT-Discover 刷新記錄,拿到了的成績。



      在 GPU 內核優化任務中,首先需要說明的是「新的最優解」(state of the art)意味著實現了比現有方案更快的內核實現。團隊選擇 GPUMODE 作為評測平臺,因為其排行榜經過大量人類競賽的充分驗證,并配備了穩健的評測框架,同時,其基準測試避免了信噪比問題,即避免因操作過于簡單或輸入規模過小而使系統開銷主導運行時間的情況。

      結果是,團隊的 TriMul 內核在所有 GPU 類型上均達到了當前最優水平。在 A100 上,TTT-Discover 找到的最佳內核比人類專家提交的最優方案快 50%,盡管在訓練階段團隊的獎勵函數并未在 A100 上直接計時。總體而言,在所有 GPU 類型上,該方法都相對于人類最佳結果實現了超過 15% 的性能提升。



      而在另外兩項測試中,TTT-Discover 同樣取得了非凡的成績。





      雖然當前 TTT-Discover 方法取得了非常好的成績,但是團隊也承認,該方法目前的形式只能應用于具有連續獎勵的問題中,而未來工作最重要的方向是針對具有稀疏獎勵或二元獎勵的問題,比如數學證明、科學假說,或者不可驗證領域的問題(物理、生物推理等)進行測試時訓練。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      武漢3歲男童小區內遭72歲送水老人三輪車撞倒身亡,街道:孩子自己摸的把手致車輛啟動,判定媽媽為過失方

      武漢3歲男童小區內遭72歲送水老人三輪車撞倒身亡,街道:孩子自己摸的把手致車輛啟動,判定媽媽為過失方

      觀威海
      2026-01-28 10:02:20
      美軍重兵“合圍”!伊朗兩大幫手將開火反擊,哈梅內伊如何抉擇?

      美軍重兵“合圍”!伊朗兩大幫手將開火反擊,哈梅內伊如何抉擇?

      紓瑤
      2026-01-27 17:10:08
      萬科原董事長郁亮突然失聯

      萬科原董事長郁亮突然失聯

      地產微資訊
      2026-01-28 09:50:11
      國務院國資委談央企重組:減少行業內卷,支持央企高質量并購

      國務院國資委談央企重組:減少行業內卷,支持央企高質量并購

      南方都市報
      2026-01-28 12:34:07
      國臺辦果然沒看錯,鄭麗文本質被徹底曝光!陰謀至此終結

      國臺辦果然沒看錯,鄭麗文本質被徹底曝光!陰謀至此終結

      奇思妙想生活家
      2026-01-28 11:30:54
      春晚二次聯排,女明星穿搭美炸天!姐姐贏麻了,普通人也可以借鑒

      春晚二次聯排,女明星穿搭美炸天!姐姐贏麻了,普通人也可以借鑒

      八斗小先生
      2026-01-26 15:29:44
      曝萬科前董事長郁亮失聯!剛卸任20天,知情人曝內情,果然有貓膩

      曝萬科前董事長郁亮失聯!剛卸任20天,知情人曝內情,果然有貓膩

      李健政觀察
      2026-01-28 16:02:16
      現貨黃金站上5290美元/盎司,日內漲2.14%

      現貨黃金站上5290美元/盎司,日內漲2.14%

      每日經濟新聞
      2026-01-28 15:58:07
      李湘洗錢風波升級!曝王詩齡已休學,對王詩齡的3點爆料全對上了

      李湘洗錢風波升級!曝王詩齡已休學,對王詩齡的3點爆料全對上了

      古希臘掌管月桂的神
      2026-01-25 21:01:05
      難以置信!咸寧90后小伙因自家大門朝外開,被鄰居取笑后連殺兩人

      難以置信!咸寧90后小伙因自家大門朝外開,被鄰居取笑后連殺兩人

      火山詩話
      2026-01-27 07:29:00
      云南“毒紅薯”后續:10億產業崩盤,無辜農戶欲哭無淚

      云南“毒紅薯”后續:10億產業崩盤,無辜農戶欲哭無淚

      過了法考的新聞人
      2026-01-27 17:19:11
      NBA最新積分榜:雷霆38勝領跑,掘金2分憾負,快船3連勝穩居第10

      NBA最新積分榜:雷霆38勝領跑,掘金2分憾負,快船3連勝穩居第10

      薇說體育
      2026-01-28 15:21:55
      一場旅行虧掉110萬!從存款40萬到負債70萬,這坑千萬別踩!

      一場旅行虧掉110萬!從存款40萬到負債70萬,這坑千萬別踩!

      青眼財經
      2026-01-27 23:05:28
      島國最接地氣的暗黑大嬸——吹石玲奈

      島國最接地氣的暗黑大嬸——吹石玲奈

      碧波萬覽
      2026-01-28 01:45:03
      72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場根基正在爛根

      72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場根基正在爛根

      老特有話說
      2026-01-07 00:40:03
      1956年,江青赴蘇聯治病,向接診的醫生坦言:我和毛澤東同志是政治夫妻

      1956年,江青赴蘇聯治病,向接診的醫生坦言:我和毛澤東同志是政治夫妻

      寄史言志
      2026-01-27 10:57:11
      張柏芝機場淚送兒子留學,二兒子成全場焦點!

      張柏芝機場淚送兒子留學,二兒子成全場焦點!

      舞指飛揚
      2026-01-28 09:17:52
      央媒發文,高調官宣62歲甄子丹喜訊,他讓李連杰和所有人刮目相看

      央媒發文,高調官宣62歲甄子丹喜訊,他讓李連杰和所有人刮目相看

      夢史
      2026-01-28 09:40:38
      必回皇馬!21歲阿根廷前腰 身價6500萬歐9球6助 可900萬歐回購

      必回皇馬!21歲阿根廷前腰 身價6500萬歐9球6助 可900萬歐回購

      智道足球
      2026-01-28 09:17:53
      華安黃金ETF規模突破1200億元

      華安黃金ETF規模突破1200億元

      財聯社
      2026-01-28 13:44:44
      2026-01-28 16:48:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12209文章數 142551關注度
      往期回顧 全部

      科技要聞

      它是神也是毒!Clawdbot改名卷入千萬詐騙

      頭條要聞

      女生曬春運"出國回家"攻略:連飛俄兩地再坐船回黑龍江

      頭條要聞

      女生曬春運"出國回家"攻略:連飛俄兩地再坐船回黑龍江

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      王祖賢入駐某音:一條7秒視頻吸粉55萬

      財經要聞

      40倍杠桿斷裂!水貝一黃金平臺兌付困難

      汽車要聞

      新手必看!冰雪路面不敢開?記住這4點 關鍵時刻真能保命

      態度原創

      教育
      時尚
      本地
      房產
      公開課

      教育要聞

      高中生填志愿新風口!3所高校中外合作辦學,就業深造雙buff加持

      被章若楠、舒淇帶火的毛衣,這樣穿太時髦了!

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版