<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節Seed團隊發布循環語言模型Ouro,在預訓練階段直接「思考」

      0
      分享至



      機器之心報道

      機器之心編輯部

      現代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進行「思考」訓練。這種策略將推理任務推遲到訓練后的階段,未能充分挖掘預訓練數據中的潛力。

      為解決這一問題,字節 Seed 團隊聯合多家機構推出了Ouro,一類被稱為循環語言模型(Looped Language Models)的新型預訓練模型,其名稱源于象征循環與自我吞噬的「銜尾蛇」(Ouroboros)。

      Ouro 另辟蹊徑通過(i)在潛在空間中進行迭代計算,(ii)采用熵正則化目標以實現學習型深度分配,以及(iii)擴展至 7.7T tokens 的數據規模,將推理能力直接構建到了預訓練階段。 這些設計使得模型能夠在預訓練階段直接學習和構建推理能力,而非僅依賴后期微調。



      • 論文標題:Scaling Latent Reasoning via Looped Language Models
      • 論文地址:https://arxiv.org/pdf/2510.25741
      • 項目主頁:https://ouro-llm.github.io/
      • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

      通過對照實驗,研究者發現 Ouro 的性能提升并非源于知識存儲量的增加,而是得益于其更高效的知識操控與推理能力。進一步分析表明,Ouro 的潛在推理過程相比標準 LLM,更接近真實的人類推理機制。



      Ouro 循環語言模型的性能。(左)參數共享的循環架構。(中與右)雷達圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個循環步,紅色)與單獨的 Transformer 基線模型。我們的模型表現出強勁性能,可與更大規模的基線模型相媲美,甚至在部分任務上超越它們。

      最終,Ouro 的 1.4B 和 2.6B 參數規模的 LoopLM,分別能在幾乎所有基準測試中達到與 4B 和 8B 標準 Transformer 相當的性能,實現了 2–3 倍的參數效率提升,顯示了其在數據受限時代下作為一種新型擴展路徑的潛力。



      在高級推理基準測試中的表現。Ouro-Thinking 系列模型與強大的基線模型(如 Qwen3 和 DeepSeek-Distill)進行對比。Ouro-1.4B-Thinking R4 的性能可與 4B 規模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個數學與科學數據集上的表現達到或超越了 8B 規模模型。

      另外,LoopLM 架構在 HEx-PHI 基準上顯著降低了有害性,且隨著循環步數(包括外推步)增加,模型的安全性進一步提升。與傳統的 CoT 方法不同,研究者的迭代潛變量更新機制產生的是因果一致的推理過程,而非事后的合理化解釋。

      循環架構

      LoopLM 架構的靈感來源于「通用 Transformer」。其核心思想是在一個固定的參數預算內實現「動態計算」。具體而言,該架構包含一個由 N 個共享權重層組成的「層堆棧」。

      在模型的前向傳播過程中,這個共享的層堆棧會被循環應用多次,即經歷多個「循環步驟」。這種設計將模型的計算規模從「參數數量」解耦到了「計算深度」。

      該架構的關鍵特性是其自適應計算能力。它集成了一個學習到的「退出門」,當模型處理輸入時:簡單輸入可能會在經歷較少的循環步驟后就提前退出,從而節省計算資源;復雜輸入則會自然地被分配更多的迭代次數,以進行更深層的處理。

      這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內部隱藏狀態中構建了一個「潛在思想鏈」。每一次循環都是對表征的逐步精煉,從而在不增加參數的情況下提升了模型的知識操縱能力。

      訓練流程

      Ouro 的訓練流程是一個多階段過程,總共使用了 7.7T tokens 的數據。

      如圖 4 所示,該流程始于一個通用的預熱階段,隨后是使用 3T token 的初始穩定訓練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數規模的變體。



      兩種變體均獨立經歷后續四個相同的訓練階段:第二次穩定訓練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓練(Mid-Training, 300B token)。

      這個過程產生了 Ouro-1.4B 和 Ouro-2.6B 兩個基礎模型。最后,為了強化特定能力,模型還額外經歷了一個專門的推理監督微調階段,以創造出專注于推理的 Ouro-Thinking 系列模型。

      在訓練穩定性方面,團隊發現最初使用 8 個循環步驟會導致損失尖峰等不穩定問題,因此在后續階段將循環步驟減少到 4,以此在計算深度和穩定性之間取得了平衡。

      為了讓模型學會何時「提前退出」,訓練流程采用了新穎的兩階段目標:



      循環語言模型架構概覽。

      左圖為訓練階段。在訓練過程中,模型使用共享參數的 N 層堆疊結構,并執行 n 個循環步驟(R = 1 到 R = n)。在每個循環步驟 i,一個退出門預測退出概率 p?,而語言建模頭 L? 則計算對應的任務損失。 訓練目標函數結合了所有循環步驟的期望任務損失,并加入熵正則化項 H(p?,…,p?),以鼓勵模型探索不同的計算深度。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      隨著塞爾比英錦賽奪冠,大師賽16強對陣出爐!大概率以下8人晉級

      隨著塞爾比英錦賽奪冠,大師賽16強對陣出爐!大概率以下8人晉級

      小火箭愛體育
      2025-12-08 08:31:03
      又曝光了6種毒食品,不要再買了,尤其不要給家里老人孩子吃 !

      又曝光了6種毒食品,不要再買了,尤其不要給家里老人孩子吃 !

      阿芒娛樂說
      2025-12-08 12:18:11
      圍標串標!四川九洲光電科技股份有限公司被暫停全軍采購資格

      圍標串標!四川九洲光電科技股份有限公司被暫停全軍采購資格

      齊魯壹點
      2025-12-08 06:53:38
      取名從來都是很難很難的事,直到上級指導你造假

      取名從來都是很難很難的事,直到上級指導你造假

      基本常識
      2025-12-06 23:44:51
      一部《芳華》,為何在今天突然刺痛了這么多人?

      一部《芳華》,為何在今天突然刺痛了這么多人?

      草莓解說體育
      2025-12-08 09:46:53
      曼聯冬窗簽加拉格爾計劃獲確認!6000萬鐵腰恐遭清洗,土超感興趣

      曼聯冬窗簽加拉格爾計劃獲確認!6000萬鐵腰恐遭清洗,土超感興趣

      羅米的曼聯博客
      2025-12-08 11:22:41
      仍不服 張本智和:明年日本隊能贏中國隊 我要在香港拿總決賽冠軍

      仍不服 張本智和:明年日本隊能贏中國隊 我要在香港拿總決賽冠軍

      風過鄉
      2025-12-08 08:05:05
      掘金滅黃蜂豪取客場10連勝:約基奇28+9+11助攻超喬丹 穆雷34分

      掘金滅黃蜂豪取客場10連勝:約基奇28+9+11助攻超喬丹 穆雷34分

      醉臥浮生
      2025-12-08 09:21:26
      沈海高速不用堵車了!廣東這條投資844億通往粵西的高速完成招標

      沈海高速不用堵車了!廣東這條投資844億通往粵西的高速完成招標

      天天話事
      2025-12-08 09:11:50
      為什么說冥王星是太陽系最恐怖的星球?它的名字就是答案

      為什么說冥王星是太陽系最恐怖的星球?它的名字就是答案

      兔斯基聊科學
      2025-12-06 17:48:08
      六臺記者:不知道皇馬在打什么,不如明天就請回穆里尼奧

      六臺記者:不知道皇馬在打什么,不如明天就請回穆里尼奧

      懂球帝
      2025-12-08 09:00:35
      12月逆襲翻身,這3生肖吉運加持,財運一路紅紅,恭喜上榜

      12月逆襲翻身,這3生肖吉運加持,財運一路紅紅,恭喜上榜

      人閒情事
      2025-12-08 13:58:57
      開始上強度了,就差直接發射!日本F15被照后,轉頭就找美國哭訴

      開始上強度了,就差直接發射!日本F15被照后,轉頭就找美國哭訴

      青青子衿
      2025-12-08 02:32:59
      1996年,姚文元出獄后,向中央提兩個請求,第二個被一口回絕

      1996年,姚文元出獄后,向中央提兩個請求,第二個被一口回絕

      雍親王府
      2025-11-15 21:50:03
      賴昌星前妻現狀曝光:曾明娜獨居3000平老宅,穿麻布衣用灶臺做飯

      賴昌星前妻現狀曝光:曾明娜獨居3000平老宅,穿麻布衣用灶臺做飯

      小濤叨叨
      2025-12-03 18:49:44
      iPhone 18 Pro Max最新曝光,剛買iPhone17的用戶估計要后悔了!

      iPhone 18 Pro Max最新曝光,剛買iPhone17的用戶估計要后悔了!

      小8說科技
      2025-12-06 01:44:04
      足球報:中赫接手國安9年已投80億,近兩年沒有屬地政府資金支持

      足球報:中赫接手國安9年已投80億,近兩年沒有屬地政府資金支持

      懂球帝
      2025-12-08 14:18:46
      偷稅只是冰山一角!央視出手,陳震再迎噩耗,牽扯整個車評圈

      偷稅只是冰山一角!央視出手,陳震再迎噩耗,牽扯整個車評圈

      甜檸聊史
      2025-12-06 16:55:42
      突發!安徽六安一新能源汽車自燃并引發爆炸,有網友指出具體車型

      突發!安徽六安一新能源汽車自燃并引發爆炸,有網友指出具體車型

      火山詩話
      2025-12-08 10:46:32
      上港剛拿到中超冠軍,武磊就離隊敲定新去向,已亮相受到球迷追捧

      上港剛拿到中超冠軍,武磊就離隊敲定新去向,已亮相受到球迷追捧

      振剛說足球
      2025-12-08 10:39:00
      2025-12-08 14:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11864文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰深圳地獄級路況 魏牌藍山VLA上車會思考聽得懂人話

      態度原創

      房產
      本地
      時尚
      旅游
      健康

      房產要聞

      碧桂園,開始甩賣海口家底!

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      除了大衣,今年最火的外套一定就是它了!

      旅游要聞

      普陀·遇見新視角|普陀這兩個公園開啟色彩盛宴,每一幀都是壁紙級大片

      甲狀腺結節到這個程度,該穿刺了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕人妻丰满| 日韩成人大屁股内射喷水| 日韩欧美亚洲| 老熟妇乱子交视频一区| julia无码中文字幕一区| 亚洲中文字幕久久无码精品| 一本大道东京热无码视频| 性欧美疯狂xxxxbbbb| 新野县| 国产偷窥熟女精品视频大全 | 夜夜躁很很躁日日躁麻豆| 成a人片亚洲日本久久| 宝山区| 东北露脸91| 国产精品A片| 91制片厂天美传媒网站进入| 亚洲黄色成人网站| 亚洲第一无码AV无码专区| 18禁无遮挡啪啪无码网站| 激情内射亚州一区二区三区爱妻| 亚洲国产美女精品久久久| 天天躁狠狠躁狠狠躁夜夜躁| 久久99国产精品久久| 日韩一区二区a片免费观看| 91视频你懂的| 一区二区三区国产| 制服丝袜亚洲在线| 国产va在线观看| 亚洲成人黄色| 97久久精品人人澡人人爽| 97人妻精品一区二区三区软件| 视频一区二区三区中文字幕狠狠| 韩国三级hd中文字幕| 国产精品久久777777| 国产成人无码a区在线观看导航 | 国产无码AV| 加勒比中文无码久久综合色| av色综合| 久久发布国产伦子伦精品| 伊人免费| 怡红院亚洲|