<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      算力救不了AI智商?谷歌新大招終結「隨機鸚鵡」爭論!

      0
      分享至


      新智元報道

      編輯:peter東

      【新智元導讀】傳統AI模型在稀疏獎勵環境中,往往會找不到激勵難以學會層次化思考。如今,谷歌團隊通過引入元控制器操控模型內部殘差流,讓智能體學會了「跳躍式思考」。該研究揭示了大模型內部可自發形成了類似人腦的層次化決策機制,為AI在需要多步的復雜任務提供了全新的訓練范式。

      AI智能體最大的「硬傷」,是算力不夠?

      并不是,獎勵太少、路太長才是

      在稀疏獎勵的長序列任務里,傳統token-by-token探索像蒙眼走迷宮:沒有路標、沒有提示,只有走到終點才知道對不對。

      結果就是一個尷尬現實:想讓智能體做點復雜事,往往必須外掛規劃器「扶著走」。

      而谷歌這項研究直接換打法:在迷宮里要求智能體按順序踏過一串彩色子目標,且只有全程無誤才給獎勵——用最殘酷的稀疏獎勵,逼出真正的層次化決策能力。

      真正的突破在于:他們不再只優化輸出,而是開始操控模型內部的「認知過程」

      在稀疏獎勵下,

      智能體如何高效探索

      傳統的大模型,依賴逐詞生成(token-by-token)的探索方式,而這對于需要多個正確步驟才能獲得獎勵的復雜任務,由于獎勵稀疏,導致智能體難以完成需要層次化決策的長序列任務。

      這好比讓一個人蒙著眼睛走迷宮,只有到達終點才能獲得反饋,期間沒有任何指引,不論這個人嘗試多少次也找不到出口。

      這導致當下的大模型智能體需要外帶一個規劃器,才能完成復雜的,需要多步才能完成的任務。而谷歌這項研究做的,就是讓智能體在迷宮中,按特定順序訪問一系列彩色位置(子目標),且只有在完全正確的序列完成后才能獲得獎勵。


      圖1:智能體需要在迷宮中按順序走過不同顏色的方塊

      這種「組合式任務」要求智能體必須掌握層次化解決問題的能力,不止需要低級的運動控制技能,又需要高級的時序規劃能力。

      這就如同人類搬運水杯的任務,相當于執行「拿起水杯→走到桌前→放下水杯」這樣的連貫動作。

      「大腦中的大腦」

      AI自我發現抽象動作

      那谷歌團隊是如何解決稀疏獎勵帶來的問題的?

      答案是元控制器(Metacontroller)。

      元控制器通過接收基模型的殘差流,能夠生成一系列簡單的內部控制器。

      每個控制器對應一個時序抽象動作,每個時序抽象動作對應一個時間軸,并附帶終止條件。通過按時間組合多個控制器,智能體能夠在新任務上實現高效探索。


      圖2:元控制器引導預訓練自回歸模型的殘差流激活。

      通過自監督的下一步動作預測,元控制器發現如何生成時間上稀疏變化的簡單內部控制器序列 。

      在分層結構任務中,每個內部控制器對應一個時序抽象動作,引導基礎自回歸模型實現一個有意義的初級目標。


      圖3:元控制器的架構

      經由強化學習,研究者發現元控制器能夠通過變分推理自動識別有意義的行為模塊,這相當于無監督發現抽象動作該怎么完成。

      用上元控制器,訓練機器人給人泡茶,就不必由手工編碼將任務拆解成多步了。

      此外,元控制器還能動態時間整合,它能通過開關單元控制抽象每一步動作的持續時間。并且能組合泛化,將學到的抽象動作重新組合解決新任務。


      圖4:自監督元控制器在預訓練的自回歸模型中發現時序抽象動作。

      元控制器學習到的開關模式還能與真實子目標切換完美對齊,盡管模型從未接收過子目標標簽。這種根據環境,切換使用那個子目標的方式是涌現產生的,表明模型內部形成了類似「選項」的分層結構。

      內部強化學習

      提效數個量級的新訓練范式

      該研究最令人驚訝的,是使用元控制器后的內部強化學習,與傳統強化學習在原始動作空間進行微調不同,內部強化學習在發現的抽象動作空間中進行學習,搜索空間大幅減小。在需要組合泛化的任務中,內部強化學習的成功率顯著高于所有基線方法,包括先前最先進的分層強化學習方法CompILE。


      圖5:不同強化學習方式的成功率

      之所以智能體能夠以更大的可能性,學會某一個需要多步驟才能完成的任務,是因為有了元控制器,模型隱含地學會了將長序列任務分解為可重用的子程序(如「移動到某色塊」),這就讓搜索空間變小,獎勵也不再稀疏。

      相當于通過對動作空間降維,將高維殘差流空間壓縮到低維抽象空間。再加上在抽象時間尺度上操作,縮短有效時間跨度。使得在抽象層面進行獎勵分配更加高效。

      「覺醒-睡眠」訓練循環的具體實現

      在2015年的論文[2]中,Jürgen Schmidhuber提出了「覺醒-睡眠」訓練循環的理論框架。

      其核心思想是構建一個迭代的、自我改進的循環,兩個階段交替執行,旨在構建能夠形成并利用時間抽象和計劃能力的自主智能系統。

      睡眠階段智能體回顧其過往的經歷(觀察和行動序列),通過自監督學習訓練一個內部世界模型。

      「覺醒」階段智能體利用在「睡眠」階段學到的世界模型內部表征,進行強化學習和規劃,以發現新的、有價值的行為。在「覺醒」階段獲得的新經驗數據,又會被加入到經驗庫中,用于下一輪的「睡眠」階段,以改進世界模型。

      而谷歌的這項研究,可看成是「覺醒-睡眠」訓練循環的具體實現,自回歸基礎模型預訓練對應睡眠階段。模型通過下一個token(此處是下一動作或觀察)預測的目標,在大量未標注的行為數據上進行訓練。

      這個過程正是自監督學習,模型學會了推斷智能體的潛在目標(如子目標),并在其殘差流激活中形成了時間抽象的表征。

      覺醒階段則是元控制器及其驅動的內部強化學習。它學習如何操控基礎模型(世界模型)的內部殘差流激活,從而生成有意義的、持續多個時間步的抽象動作(如「前往藍色位置」)。

      這相當于在世界模型的內部狀態空間中進行規劃和控制。


      圖6:在發現時序抽象動作時,預訓練的自回歸模型被凍結的重要性。

      而只有如圖6所示,當基礎自回歸模型在元控制器訓練期間被凍結時,才會涌現出與子目標對齊的正確切換表征。

      這一發現強烈支持了「覺醒-睡眠」循環的分階段迭代思想:首先通過預訓練建立一個高質量、穩定的世界模型(基礎模型)。

      然后,在此基礎上,再通過元控制器學習驅動內部強化學習,從而學到控制策略。

      如果兩者同時訓練(共訓練),模型會收斂到一個退化的解決方案,無法發現有意義的時間抽象。

      這印證了分階段、迭代式訓練的理論優越性。而這符合Jürgen Schmidhuber提出的「先睡眠(構建模型)、后覺醒(學習控制)」的循環訓練方案。

      終結隨機鸚鵡爭論

      在大模型研究中,一直有批評人士認為自回歸模型無論參數量多大,都不過是「隨機鸚鵡」,難以形成一致的時間抽象和規劃。

      而該研究表明,預測下一個詞的訓練方式,只要結合元控制器,就能夠誘導出層次化的時間抽象,這與人類的問題解決方式高度相似。

      在不依賴手動獎勵塑形的情況下解決需要多步才能完成的任務,是邁向能夠導航復雜、開放式搜索空間的自主智能體的關鍵一步,在這些空間中,中間進度的定義往往未知。

      谷歌團隊的這項研究標志著AI研究從單純優化模型輸出,轉向理解和操控模型內部認知過程,為開發具有真正層次化推理能力的通用AI系統提供了堅實的實踐基礎,說明了模仿人類睡眠,才能夠實現復雜時間序列任務的高效學習。

      與稀疏自編碼器(SAEs)等解釋性方法相比,元控制器具有顯著優勢。它直接通過殘差流干預降低預測誤差,具有內部記憶,支持長時間跨度的干預,且能夠發現可解釋的、長時間持續的干預策略。

      這項技術的潛在應用極其廣泛。

      在機器人控制中,可讓機器人執行需要多步協調的復雜任務;對于數學推理,能自主將復雜問題分解為可管理的推理步驟;對于科學發現,也可讓智能體在稀疏獎勵環境中進行高效探索和假設檢驗。

      谷歌提出的內部強化學習范式,尤其適合需要長期規劃和組合推理的場景,為實現真正通用的智能系統提供了新路徑。

      參考資料:

      https://arxiv.org/abs/2512.20605

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

      杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

      收藏大視界
      2026-02-28 23:03:27
      “一人公司”火了!全國人大代表、科大訊飛董事長劉慶峰:要完善適配稅費規則

      “一人公司”火了!全國人大代表、科大訊飛董事長劉慶峰:要完善適配稅費規則

      時代周報
      2026-03-07 18:44:10
      為了把張格爾押到京師凌遲,道光花了多少代價?四個字:不計成本

      為了把張格爾押到京師凌遲,道光花了多少代價?四個字:不計成本

      南書房
      2026-03-08 08:00:12
      1949年,警察局長暗殺二野兵團司令,動手時發現對方竟是自己弟弟

      1949年,警察局長暗殺二野兵團司令,動手時發現對方竟是自己弟弟

      大運河時空
      2026-03-07 09:20:03
      1年賺3200萬!前中超外援炮轟:最后悔去中國踢球 為金錢出賣靈魂

      1年賺3200萬!前中超外援炮轟:最后悔去中國踢球 為金錢出賣靈魂

      風過鄉
      2026-03-08 11:10:59
      快船123-120灰熊3喜1憂!杰克遜+米勒證明價值,馬瑟林曝弊端!

      快船123-120灰熊3喜1憂!杰克遜+米勒證明價值,馬瑟林曝弊端!

      籃球資訊達人
      2026-03-08 12:48:05
      2026兩會開始當天,張凱麗建議整治圈內亂象,周迅、楊冪榜上有名

      2026兩會開始當天,張凱麗建議整治圈內亂象,周迅、楊冪榜上有名

      老鵜愛說事
      2026-03-06 21:37:50
      山姆1.38公斤冰塊售價37.9元!門店工作人員回應

      山姆1.38公斤冰塊售價37.9元!門店工作人員回應

      上海約飯局
      2026-03-07 21:33:52
      美軍B2轟炸機來了,伊朗外長致電王毅,提一個請求,中方斬釘截鐵

      美軍B2轟炸機來了,伊朗外長致電王毅,提一個請求,中方斬釘截鐵

      面包夾知識
      2026-03-06 14:15:50
      1960年,烈士趙一曼兒子寫信諷刺毛主席,主席看后只回復了6個字

      1960年,烈士趙一曼兒子寫信諷刺毛主席,主席看后只回復了6個字

      小莜讀史
      2026-03-04 15:56:32
      近萬噸新疆三文魚,都去哪兒了?

      近萬噸新疆三文魚,都去哪兒了?

      虎嗅APP
      2026-03-04 01:57:12
      萬萬沒想到,馬筱梅一句都是我的錯,竟然把自己陷入了水深火熱中

      萬萬沒想到,馬筱梅一句都是我的錯,竟然把自己陷入了水深火熱中

      吳霶愛體育
      2026-03-08 08:03:50
      爆大冷!西部第三27分潰敗:愛德華茲孤立無援,火箭坐收漁利

      爆大冷!西部第三27分潰敗:愛德華茲孤立無援,火箭坐收漁利

      體壇小李
      2026-03-08 07:10:31
      浙江一中學為學生定制專屬毛毯獎狀,有的學生走出校門時直接披在身上!校方:寓意“一輩子”,以后學生喜歡什么就頒發什么

      浙江一中學為學生定制專屬毛毯獎狀,有的學生走出校門時直接披在身上!校方:寓意“一輩子”,以后學生喜歡什么就頒發什么

      大風新聞
      2026-03-05 20:34:02
      美伊以大混戰第六天,第一個輸家已出現,竟然不是美國也不是伊朗

      美伊以大混戰第六天,第一個輸家已出現,竟然不是美國也不是伊朗

      近史博覽
      2026-03-08 12:24:41
      談伊朗局勢、中美關系、全球治理……王毅答中外記者問,金句來了!

      談伊朗局勢、中美關系、全球治理……王毅答中外記者問,金句來了!

      縱相新聞
      2026-03-08 12:52:03
      不到24小時,伊朗新防長被斬首!哈梅死得不冤,最大敵人已出現

      不到24小時,伊朗新防長被斬首!哈梅死得不冤,最大敵人已出現

      甜檸聊史
      2026-03-07 04:43:09
      出軌、凈身出戶?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

      出軌、凈身出戶?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

      秋姐居
      2026-02-10 09:19:42
      1968年,那個逃到蘇聯成為克格勃的女知青傅索安,結局如何?

      1968年,那個逃到蘇聯成為克格勃的女知青傅索安,結局如何?

      明月清風閣
      2026-02-03 15:20:06
      72歲大爺斑塊消失,他把血管變干凈的三個方法,連醫生也贊嘆

      72歲大爺斑塊消失,他把血管變干凈的三個方法,連醫生也贊嘆

      荊醫生科普
      2026-03-03 16:40:19
      2026-03-08 13:39:01
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14666文章數 66667關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗軍方:已摧毀"沙漠之眼"雷達等200個美以敏感目標

      頭條要聞

      伊朗軍方:已摧毀"沙漠之眼"雷達等200個美以敏感目標

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      數碼
      房產
      時尚
      親子
      藝術

      數碼要聞

      Artpical Mondrian解碼耳放亮相,外觀致敬蒙德里安畫作

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      2026春夏一定要擁有的6只包,好看又百搭

      親子要聞

      幼兒園操場變練兵場 硬核體能訓練含吊桿跳馬

      藝術要聞

      “北京意象·活力通州”繪畫作品展 | 油畫作品選

      無障礙瀏覽 進入關懷版