<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節Seed團隊發布循環語言模型Ouro,在預訓練階段直接「思考」

      0
      分享至



      機器之心報道

      機器之心編輯部

      現代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進行「思考」訓練。這種策略將推理任務推遲到訓練后的階段,未能充分挖掘預訓練數據中的潛力。

      為解決這一問題,字節 Seed 團隊聯合多家機構推出了Ouro,一類被稱為循環語言模型(Looped Language Models)的新型預訓練模型,其名稱源于象征循環與自我吞噬的「銜尾蛇」(Ouroboros)。

      Ouro 另辟蹊徑通過(i)在潛在空間中進行迭代計算,(ii)采用熵正則化目標以實現學習型深度分配,以及(iii)擴展至 7.7T tokens 的數據規模,將推理能力直接構建到了預訓練階段。 這些設計使得模型能夠在預訓練階段直接學習和構建推理能力,而非僅依賴后期微調。



      • 論文標題:Scaling Latent Reasoning via Looped Language Models
      • 論文地址:https://arxiv.org/pdf/2510.25741
      • 項目主頁:https://ouro-llm.github.io/
      • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

      通過對照實驗,研究者發現 Ouro 的性能提升并非源于知識存儲量的增加,而是得益于其更高效的知識操控與推理能力。進一步分析表明,Ouro 的潛在推理過程相比標準 LLM,更接近真實的人類推理機制。



      Ouro 循環語言模型的性能。(左)參數共享的循環架構。(中與右)雷達圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個循環步,紅色)與單獨的 Transformer 基線模型。我們的模型表現出強勁性能,可與更大規模的基線模型相媲美,甚至在部分任務上超越它們。

      最終,Ouro 的 1.4B 和 2.6B 參數規模的 LoopLM,分別能在幾乎所有基準測試中達到與 4B 和 8B 標準 Transformer 相當的性能,實現了 2–3 倍的參數效率提升,顯示了其在數據受限時代下作為一種新型擴展路徑的潛力。



      在高級推理基準測試中的表現。Ouro-Thinking 系列模型與強大的基線模型(如 Qwen3 和 DeepSeek-Distill)進行對比。Ouro-1.4B-Thinking R4 的性能可與 4B 規模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個數學與科學數據集上的表現達到或超越了 8B 規模模型。

      另外,LoopLM 架構在 HEx-PHI 基準上顯著降低了有害性,且隨著循環步數(包括外推步)增加,模型的安全性進一步提升。與傳統的 CoT 方法不同,研究者的迭代潛變量更新機制產生的是因果一致的推理過程,而非事后的合理化解釋。

      循環架構

      LoopLM 架構的靈感來源于「通用 Transformer」。其核心思想是在一個固定的參數預算內實現「動態計算」。具體而言,該架構包含一個由 N 個共享權重層組成的「層堆棧」。

      在模型的前向傳播過程中,這個共享的層堆棧會被循環應用多次,即經歷多個「循環步驟」。這種設計將模型的計算規模從「參數數量」解耦到了「計算深度」。

      該架構的關鍵特性是其自適應計算能力。它集成了一個學習到的「退出門」,當模型處理輸入時:簡單輸入可能會在經歷較少的循環步驟后就提前退出,從而節省計算資源;復雜輸入則會自然地被分配更多的迭代次數,以進行更深層的處理。

      這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內部隱藏狀態中構建了一個「潛在思想鏈」。每一次循環都是對表征的逐步精煉,從而在不增加參數的情況下提升了模型的知識操縱能力。

      訓練流程

      Ouro 的訓練流程是一個多階段過程,總共使用了 7.7T tokens 的數據。

      如圖 4 所示,該流程始于一個通用的預熱階段,隨后是使用 3T token 的初始穩定訓練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數規模的變體。



      兩種變體均獨立經歷后續四個相同的訓練階段:第二次穩定訓練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓練(Mid-Training, 300B token)。

      這個過程產生了 Ouro-1.4B 和 Ouro-2.6B 兩個基礎模型。最后,為了強化特定能力,模型還額外經歷了一個專門的推理監督微調階段,以創造出專注于推理的 Ouro-Thinking 系列模型。

      在訓練穩定性方面,團隊發現最初使用 8 個循環步驟會導致損失尖峰等不穩定問題,因此在后續階段將循環步驟減少到 4,以此在計算深度和穩定性之間取得了平衡。

      為了讓模型學會何時「提前退出」,訓練流程采用了新穎的兩階段目標:



      循環語言模型架構概覽。

      左圖為訓練階段。在訓練過程中,模型使用共享參數的 N 層堆疊結構,并執行 n 個循環步驟(R = 1 到 R = n)。在每個循環步驟 i,一個退出門預測退出概率 p?,而語言建模頭 L? 則計算對應的任務損失。 訓練目標函數結合了所有循環步驟的期望任務損失,并加入熵正則化項 H(p?,…,p?),以鼓勵模型探索不同的計算深度。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英超保級反轉!熱刺1-0新帥首勝,西漢姆2-1絕殺,降級熱門2選1

      英超保級反轉!熱刺1-0新帥首勝,西漢姆2-1絕殺,降級熱門2選1

      體育知多少
      2026-04-26 00:09:25
      妻子手機半夜收到“父親”信息,丈夫替妻子回復:他不在家,快來

      妻子手機半夜收到“父親”信息,丈夫替妻子回復:他不在家,快來

      惟來
      2026-04-25 13:01:13
      普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

      普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

      裝修秀
      2026-04-20 10:50:03
      65歲黃宏現狀曝光,住北京普通小區,由外孫女照顧,看起來狀態不錯

      65歲黃宏現狀曝光,住北京普通小區,由外孫女照顧,看起來狀態不錯

      娛樂的硬糖吖
      2026-04-24 16:58:00
      董事長涉嫌強-J!涉及兩家上市公司

      董事長涉嫌強-J!涉及兩家上市公司

      挖掘機007
      2026-04-26 09:45:24
      這個角度的楊冪是不是更美

      這個角度的楊冪是不是更美

      小椰的奶奶
      2026-04-25 18:29:09
      33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

      33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

      阿訊說天下
      2026-04-18 14:53:39
      宋喆直播賣棗笑塌全網!百萬流量零成交,滿屏王寶強彈幕扎心到爆

      宋喆直播賣棗笑塌全網!百萬流量零成交,滿屏王寶強彈幕扎心到爆

      誮惜顏a
      2026-01-13 01:12:10
      怒了!國安球迷:蒙哥馬利下課,知道大廠為何35歲以上的不要了吧

      怒了!國安球迷:蒙哥馬利下課,知道大廠為何35歲以上的不要了吧

      足球大腕
      2026-04-25 23:21:55
      孫楊綜藝表現惹眾怒,大V發文吐槽揭他往事,私生子傳聞被深扒

      孫楊綜藝表現惹眾怒,大V發文吐槽揭他往事,私生子傳聞被深扒

      古希臘掌管松餅的神
      2026-04-25 11:24:56
      汪小菲學乖了,馬筱梅期待的隆重百日宴可能要泡湯了

      汪小菲學乖了,馬筱梅期待的隆重百日宴可能要泡湯了

      觀察鑒娛
      2026-04-26 13:21:24
      西安普通人存款天花板曝光,看完瞬間破防

      西安普通人存款天花板曝光,看完瞬間破防

      叮當當科技
      2026-04-26 11:19:36
      震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

      震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

      火山詩話
      2026-04-23 16:46:58
      又胖了!萊昂諾爾公主訓練照曝光,腹部脂肪堆積,大腿粗壯有力

      又胖了!萊昂諾爾公主訓練照曝光,腹部脂肪堆積,大腿粗壯有力

      凡知
      2026-04-26 09:48:23
      艾倫回應批評:亨德利一派胡言!2位前冠軍被淘汰,8強已出3席

      艾倫回應批評:亨德利一派胡言!2位前冠軍被淘汰,8強已出3席

      排球黃金眼
      2026-04-26 09:06:24
      四年暴跌120億,微信是怎么“殺死”口香糖行業的?

      四年暴跌120億,微信是怎么“殺死”口香糖行業的?

      流蘇晚晴
      2026-04-19 20:34:47
      深圳機場廁所登上熱搜!網友質疑便池精準顯示,是否靠攝像頭監控

      深圳機場廁所登上熱搜!網友質疑便池精準顯示,是否靠攝像頭監控

      火山詩話
      2026-04-25 07:22:32
      被許家印坑慘的8位大佬!損失超2000億,從巔峰跌回塵埃

      被許家印坑慘的8位大佬!損失超2000億,從巔峰跌回塵埃

      洞見小能手
      2026-04-24 10:21:16
      解放軍96小時后準時收兵,中日開戰結局六字可述

      解放軍96小時后準時收兵,中日開戰結局六字可述

      少女心盜夢賊
      2026-04-26 09:59:33
      德爾加多面臨挖角!魯媒:不去青島,或準備追隨恩師,加盟豪門

      德爾加多面臨挖角!魯媒:不去青島,或準備追隨恩師,加盟豪門

      建哥說體育
      2026-04-26 09:35:53
      2026-04-26 14:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12855文章數 142636關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

      頭條要聞

      特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      健康
      家居
      游戲
      親子
      公開課

      干細胞如何讓燒燙傷皮膚"再生"?

      家居要聞

      自然肌理 溫潤美學

      Pearl Abyss 正式發布《紅色沙漠》首張官方原聲音樂專輯

      親子要聞

      孩子會旺媽媽的6個特點

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一本色道久久综合亚洲精品不卡| 激情97综合亚洲色婷婷五| 国产精品久久久久久无毒不卡 | 18禁无遮挡啪啪无码网站| 国产av一区二区三区| 最新国产成人在线网站| 午夜成人无码福利免费视频| 午夜DY888国产精品影院| 成人片黄网站色大片免费| 国产精品久久久久影院| 2021av在线| 无码人妻精品一区二区三区温州 | 熟妇与黑人一区二区三区乱码| 男人天堂2024手机在线| 人妻忍着娇喘被中进中出视频| 亚洲av粉嫩性色av| 小鲜肉自慰网站| 亚洲伊人精品久视频国产| AV一区二区三区| 日本精品一区二区三本中文| 色噜噜AV| 高潮喷水抽搐无码免费| 淫色人妻网| 中文字幕亚洲综合久久| 成人网中文字幕| 日韩人妻无码一区二区三区99| 思思久99久女女精品| 久久av高潮av无码av喷吹| 精品久久久久久无码免费| 天天色天天综合网| 成人免费无码成人影院日韩| 国产电影一区二区三区| 在线精品视频一区二区三区| www.jizzjizz| 色欲AV无码久久精品有码| 97超级碰碰人妻中文字幕| 麻豆A?V视频| 两个人日本www免费版| 日本中文一区二区三区亚洲| 日韩伊在线| 国产成人8X人网站视频|