<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Mythos架構被22歲小伙“逆推”開源了!MoE和注意力借鑒DeepSeek

      0
      分享至

      夢晨 發自 凹非寺
      量子位 | 公眾號 QbitAI

      聽說Mythos太危險被封印?有人反手就給他“重建”并開源了。

      OpenMythos,整合了公開研究和目前對Claude Mythos架構的主流推測。



      OpenMythos實現了一個帶有MoE路由機制的循環深度Transformer(Recurrent-Depth Transformer ,RDT),通過跨專家的權重共享和條件計算來實現迭代深度。

      已有研究證實,這種架構僅用1半參數,就能獲得與傳統模型同等的效果。

      不堆參數,堆循環

      把這些碎片拼在一起的人叫Kye Gomez,22歲,Swarms智能體框架創始人。



      他設計的RDT架構有三個核心點:

      • 讓同一組權重最多反復跑16遍
      • 每次走不同的專家路徑
      • 推理全程在潛在空間完成。

      三者合力,讓一個問題“想更多遍”比堆參數更高效。

      過去兩年,AI行業的標準打法是堆疊上百層不同的Transformer層,每層學到不同的東西,參數量直接爆炸。

      RDT不用上百層,只用幾層,最多反復循環跑16遍,每一遍都基于前一輪的結果繼續計算。



      同一個東西跑16遍,那不是浪費算力嗎?

      RDT的回答是不會重復,因為每次循環激活的是不同的“專家”

      循環塊內部用了混合專家層,MoE路由器在每次循環中激活不同的專家子集。

      MoE的設計上借鑒了DeepSeekMoE:大量細粒度路由專家,加少量始終在線的共享專家。

      Gomez把這套設計總結成一句話:

      MoE提供領域知識的廣度,循環提供推理的深度。

      廣度和深度都有了,還需要一套穩定性機制保證循環不會跑飛。

      來自UCSD和Together AI的新論文Parcae: Scaling Laws For Stable Looped Language Models提出LTI穩定循環注入讓每輪不發散。

      實驗中用770M參數的RDT追平了1.3B參數的標準Transformer。

      參數量少了近一半,效果一樣。



      最后一塊拼圖是連續潛在空間推理。16輪推理全部在hidden state向量中完成,不生成任何中間token。直到最后一輪循環結束,才輸出答案。

      這和Chain-of-Thought完全不同。CoT是“想一步,寫一步,再想一步,再寫一步”,中間token全部暴露給人類閱讀。

      RDT是“想完16遍才說一句話”,推理過程完全內化。



      Kye還引用了俄亥俄州立大學的一篇論文,對循環Transformer架構做了兩個關鍵實驗。



      第一個:系統性泛化。

      訓練時從沒見過的知識組合,推理時循環Transformer照樣能答對,標準Transformer直接失敗。

      這證明循環不是重復計算,是真正的”更深層思考”。

      第二個:深度外推。

      訓練時只教了20跳推理鏈,測試時直接給30跳。

      循環Transformer的應對方式就是在推理時多加幾輪循環,標準Transformer直接崩潰。

      這些結果說明當前大模型在預訓練中已經記住了大量事實,瓶頸在于知識組合。

      它們無法將已知事實串聯起來回答新穎問題。循環似乎免費解鎖了這種組合能力。

      如果這些結論成立,Scaling的主流將從”訓練更大的模型”轉向“讓現有模型在推理時多想幾遍”。

      有了這些研究結果,Anthropic的Mythos是否真的用了這套架構,似乎已經不重要了。

      對循環Transformer的猜想已經吸引了來自學術界的大量目光。

      更多理論和實驗驗證正在路上。

      GitHub:
      https://github.com/kyegomez/OpenMythos#the-central-hypothesis

      參考鏈接:
      [1]
      https://x.com/KyeGomezB/status/2045660378844024994
      [2]
      https://arxiv.org/abs/2604.07822
      [3]
      https://arxiv.org/abs/2604.12946

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張雪回應比賽提前結束:如果繼續比賽可能引發安全事故;“賽車圈還是很干凈的,每個人都為了自己的信仰拼搏”

      張雪回應比賽提前結束:如果繼續比賽可能引發安全事故;“賽車圈還是很干凈的,每個人都為了自己的信仰拼搏”

      大風新聞
      2026-04-20 10:28:40
      19歲女孩挪用自家1700萬當“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

      19歲女孩挪用自家1700萬當“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

      封面新聞
      2026-04-20 17:48:14
      海外版“砍一刀”被美國消費者瘋狂吐槽:這質量就是中國制造?

      海外版“砍一刀”被美國消費者瘋狂吐槽:這質量就是中國制造?

      可達鴨面面觀
      2026-04-20 16:18:29
      “愛奇藝瘋了”沖上熱搜第一,CEO獨家回應

      “愛奇藝瘋了”沖上熱搜第一,CEO獨家回應

      第一財經資訊
      2026-04-20 17:24:18
      空姐的圈子真的亂嗎?我做了7年空姐,告訴大家最真實的行業現狀

      空姐的圈子真的亂嗎?我做了7年空姐,告訴大家最真實的行業現狀

      千秋文化
      2026-04-17 20:01:45
      太難了!貴州女子哭訴生意不好,想把女兒生活費2000降到1600遭拒

      太難了!貴州女子哭訴生意不好,想把女兒生活費2000降到1600遭拒

      火山詩話
      2026-04-20 13:51:19
      去臺灣玩了七天回來,說實在的,普通人來臺灣還真有點不適應

      去臺灣玩了七天回來,說實在的,普通人來臺灣還真有點不適應

      復轉這些年
      2026-04-20 18:03:08
      “按按鈕就行”:官媒的“大國工匠”是如何失誤的?

      “按按鈕就行”:官媒的“大國工匠”是如何失誤的?

      虔青
      2026-04-20 13:25:48
      鄭麗文回應“大陸武統”,作出滿分回答,還給民進黨指了一條明路

      鄭麗文回應“大陸武統”,作出滿分回答,還給民進黨指了一條明路

      頭條爆料007
      2026-04-19 20:27:52
      7.5級地震, 海嘯抵達日本! 日媒提醒: 立即逃生

      7.5級地震, 海嘯抵達日本! 日媒提醒: 立即逃生

      每日經濟新聞
      2026-04-20 17:47:38
      “國產降壓王牌藥”終于納入醫保,不影響肝腎還能降尿酸!

      “國產降壓王牌藥”終于納入醫保,不影響肝腎還能降尿酸!

      白宸侃片
      2026-04-20 19:04:26
      伊朗萬噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點中國的名

      伊朗萬噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點中國的名

      二大爺觀世界
      2026-04-20 20:36:50
      美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關船只表示關切

      美方扣押一艘中國駛來伊朗貨船,外交部:對美方強制截停有關船只表示關切

      澎湃新聞
      2026-04-20 15:42:26
      人民日報:已投放500萬輛!新國標電動車為何突然反轉,有3大原因

      人民日報:已投放500萬輛!新國標電動車為何突然反轉,有3大原因

      電動車的那些事兒
      2026-04-18 07:37:58
      6月1日起全國工地統一用工新規,明確60歲以上農民工上崗標準

      6月1日起全國工地統一用工新規,明確60歲以上農民工上崗標準

      阿嚼影視評論
      2026-04-20 21:02:56
      《我在故宮修文物》導演去世,享年43歲

      《我在故宮修文物》導演去世,享年43歲

      界面新聞
      2026-04-20 12:37:14
      國際奧委會明確表態,對2036年奧運會的申辦情況很是失望

      國際奧委會明確表態,對2036年奧運會的申辦情況很是失望

      安安說
      2026-04-20 11:09:20
      MVP選票結果流出!!他居然才1票啊!!!

      MVP選票結果流出!!他居然才1票啊!!!

      柚子說球
      2026-04-20 22:29:11
      冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

      冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

      芹姐說生活
      2026-04-20 16:10:12
      寧波男子收到陌生賬號轉賬8萬余元,三天后奢侈品牌商家找來:員工誤將其收款碼給客戶

      寧波男子收到陌生賬號轉賬8萬余元,三天后奢侈品牌商家找來:員工誤將其收款碼給客戶

      齊魯壹點
      2026-04-20 07:19:18
      2026-04-21 06:19:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12502文章數 176457關注度
      往期回顧 全部

      科技要聞

      HUAWEI Pura X Max發布 售價10999元起

      頭條要聞

      19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

      頭條要聞

      19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

      體育要聞

      阿森納已拼盡全力,但你早干嘛去了...

      娛樂要聞

      《八千里路云和月》田家泰暗殺

      財經要聞

      利潤暴跌7成,字節到底在做什么

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      數碼
      手機
      時尚
      游戲
      家居

      數碼要聞

      REDMI 顯示器 G Pro 27U 2026輕體驗:電競利器 桌面上的“小鋼炮”

      手機要聞

      OPPO影像旗艦高端發力 Find X9 Ultra走出國門

      春天衣服不用準備太多!這幾大單品提前備好,百搭實用又不過時

      大司馬回歸兩個月,某音人氣穩居頂流行列,道出風光背后心酸現狀

      家居要聞

      自然慢調 慢享時光

      無障礙瀏覽 進入關懷版