Claude Mythos核心架構(gòu)開源！22歲天才一人破解，融合DeepSeek思路

2026-04-20 17:09:52　來源: 新智元

北京舉報

分享至

新智元報道

編輯：桃子

【新智元導(dǎo)讀】Claude Mythos核心架構(gòu)，竟被一個22歲天才扒了個精光！OpenMythos現(xiàn)已全開源，不靠堆參數(shù)，原地「循環(huán)思考」16次就能推理。閉源實驗室的護(hù)城河，真的還在嗎？

簡直太瘋狂了！

Anthropic捂得最嚴(yán)實的Claude Mythos，竟被一個22歲的年輕人扒開了。

不是泄露，不是內(nèi)部員工跳槽帶出來的。

是一個叫Kye Gomez的初創(chuàng)CEO，以第一性原理，硬生生把Claude Mythos的核心架構(gòu)從頭推導(dǎo)了出來。

更炸裂的是，他把這一項目——OpenMythos全開源了。

復(fù)現(xiàn)帖引近100萬人圍觀

一時間，全網(wǎng)都坐不住了，網(wǎng)友們紛紛驚嘆Mythos背景精妙的設(shè)計。

不堆參數(shù)，原地「循環(huán)思考」16次

先說結(jié)論，Kye Gomez認(rèn)為——

Claude Mythos的核心不是一個更大的Transformer，而是一種叫做「循環(huán)深度Transformer」（Recurrent-Depth Transformer, RDT）的架構(gòu)。

說白了就是，同一套權(quán)重，在一次前向傳播里循環(huán)跑最多16次。

傳統(tǒng)大模型像蓋高樓，一層一層往上堆參數(shù)。100層不夠就200層，200層不夠就500層。

參數(shù)越多，模型越大，顯存吃得越猛，訓(xùn)練成本越恐怖。

但RDT完全換了一個思路：不蓋高樓，原地跑圈。

模型只有一個核心計算塊，但這個塊會被反復(fù)執(zhí)行。每循環(huán)一次，隱藏狀態(tài)就更新一次，就相當(dāng)于「多想了一步」。

而且所有的思考都在連續(xù)潛空間里默默進(jìn)行——不用像思維鏈（CoT）那樣，每一步都吐出可見的token。

這不是重復(fù)計算，是迭代推理。

架構(gòu)全拆解：三段式設(shè)計

整個OpenMythos的架構(gòu)分三段：

Prelude（序曲）→ Recurrent Block（循環(huán)核心）→ Coda（終章）

Prelude和Coda是標(biāo)準(zhǔn)的Transformer層，各跑一次。

真正的計算核心是中間的「循環(huán)塊」，它最多循環(huán)16次，每次循環(huán)的更新規(guī)則是：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是Prelude編碼后的原始輸入，每一步都會被重新注入，防止模型在循環(huán)中「跑偏」。

MoE給廣度，循環(huán)給深度

光靠循環(huán)能解釋Mythos推理的「深度」，但解釋不了廣度。

OpenMythos在循環(huán)核心的每個FFN層，都替換成了MoE層，設(shè)計參考了DeepSeek-MoE：

大量細(xì)粒度的路由專家；
每個token只激活其中一小部分；
少量「共享專家」始終激活，負(fù)責(zé)吸收跨領(lǐng)域的通用知識。

最精妙的一點，隨著隱藏狀態(tài)h_t在循環(huán)中不斷演化，路由器在每一層循環(huán)深度會選擇不同的專家子集。

也就是說，雖然權(quán)重共享，但每次循環(huán)的計算路徑完全不同：

MoE提供廣度，循環(huán)提供深度。

項目地址：https://github.com/kyegomez/OpenMythos

注意力機(jī)制默認(rèn)使用「多潛變量注意力」（Multi-Latent Attention），來自DeepSeek-V2，把KV緩存壓縮成低秩潛變量，在生產(chǎn)規(guī)模下能實現(xiàn)10-20倍的KV顯存節(jié)省。

三個額外機(jī)制保證循環(huán)穩(wěn)定性：LTI約束注入（譜半徑強(qiáng)制小于1）、自適應(yīng)計算時間（ACT）逐位置停機(jī)、以及深度級LoRA適配器讓每次迭代都有獨立的行為調(diào)整能力。

細(xì)思極恐，這套設(shè)計精密得像一臺瑞士鐘表。

770M打平1.3B，參數(shù)效率直接翻倍

這不是嘴上說說。

此前，來自Parcae團(tuán)隊的實驗數(shù)據(jù)：一個770M參數(shù)的循環(huán)模型，在同等訓(xùn)練數(shù)據(jù)下，能達(dá)到1.3B標(biāo)準(zhǔn)Transformer的下游任務(wù)質(zhì)量。

換句話說——用一半的參數(shù)，干了同樣的活。

這對整個行業(yè)意味著什么？

對消費級硬件來說，這是天大的利好。以前跑個像樣的模型，沒有A100你連門都進(jìn)不了。

現(xiàn)在呢？推理深度是時間換空間——你不需要更多的顯存，只需要多跑幾圈。

更重磅的是，這徹底改寫了AI的Scaling法則。以前拼的是誰的參數(shù)多、誰的GPU多、誰的電費賬單厚。

現(xiàn)在的規(guī)則變了：未來最強(qiáng)的模型，不是參數(shù)最多的，而是想得最多次的。

不過，作者也表示，這目前只是理論上的說法，還需要保留一些意見。

高中畢業(yè)，就當(dāng)上了CEO

這位扒開22歲Claude Mythos黑箱的大男孩Kye Gomez，是Swarms的創(chuàng)始人，之前還領(lǐng)導(dǎo)過Agora Labs。

他的研究重點是——大規(guī)模多智能體系統(tǒng)、替代模型架構(gòu)和多模態(tài)模型。

個人主頁顯示，Kye Gomez高中畢業(yè)之后，就開始投身于創(chuàng)業(yè)。

在2021年-2024年間，他同時擔(dān)任了三家公司的聯(lián)創(chuàng)/CEO，創(chuàng)建立了一個以「APAC」為品牌的生態(tài)體系。

其覆蓋了AI深科技、媒體、食品科技等多個領(lǐng)域。

22歲小哥，開源了Anthropic神級模型

這件事最讓人震撼的，不是架構(gòu)本身有多厲害。

是一個22歲的創(chuàng)業(yè)者，只用公開論文和第一性原理，就把Anthropic藏了一年的黑箱直接復(fù)現(xiàn)了出來。

還全開源了，而且只要幾行代碼就能跑。

這意味著什么？

閉源實驗室的架構(gòu)優(yōu)勢，正在以肉眼可見的速度消失。

FT最新報道中，Dario Amodei重磅預(yù)測，中國將在12個月內(nèi)，完全復(fù)刻出具備Claude Mythos級別能力的大模型。

針對外界對LLM性能是否觸及天花板的質(zhì)疑，Amode用一句富有詩意的話給出了回應(yīng)——

彩虹沒有盡頭，只有彩虹本身。

他強(qiáng)調(diào)，目前完全看不到技術(shù)放緩的跡象。

當(dāng)一個人用公開信息就能重建最核心的技術(shù)，護(hù)城河就不再是架構(gòu)了。

參考資料：

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

從6D全彩芯片到物理AI，禾賽欲再定義激光雷達(dá)賽道

經(jīng)濟(jì)觀察報 2026-04-19 00:09:55
0 跟貼 0
量子芯片會不會是下一個“原子彈”？

鈦媒體APP 2026-03-11 19:38:09
0 跟貼 0

美國實現(xiàn)光刻創(chuàng)新，金屬有機(jī)框架光刻膠有望打造5nm極限硅芯片

DeepTech深科技 2026-03-08 18:51:28
0 跟貼 0

八爸爸偷吃女兒的巧克力，這樣就不會被發(fā)現(xiàn)了，這是什么原理！

逗趣笑哈哈樂園 2026-04-19 09:44:34
4 跟貼 4
兩個神級原理，看完直接漲知識

快樂圖鑒 2026-04-20 10:51:47
1 跟貼 1

Mythos架構(gòu)被22歲小伙“逆推”開源了！MoE和注意力借鑒DeepSeek

量子位 2026-04-20 16:05:47
6 跟貼 6

DeepSeek融資，梁文鋒的“現(xiàn)實主義”轉(zhuǎn)身

鈦媒體APP 2026-04-20 19:07:16
1 跟貼 1
各種夯土機(jī)的原理和區(qū)別！

方蕊 2026-04-16 12:47:44
1 跟貼 1

全網(wǎng)最詳細(xì)的流量計原理視頻講解！

宇宙科學(xué)探索 2026-04-17 15:52:32
1 跟貼 1
這是什么原理？

繽果綜藝 2026-04-20 15:06:00
0 跟貼 0
“DeepSeek啟動融資”消息引爆創(chuàng)投圈！資本布局大模型賽道邏輯生變

每日經(jīng)濟(jì)新聞 2026-04-20 21:56:01
1 跟貼 1
神秘現(xiàn)象引發(fā)好奇，究竟暗藏什么原理，快來一探究竟

笑的牙癢癢 2026-04-18 00:00:00
0 跟貼 0
專利價值管理范式的理論演進(jìn)與“六標(biāo)-五級”模型構(gòu)建

IPRdaily 2026-04-20 10:41:31
0 跟貼 0
機(jī)器人是怎么學(xué)會干活的：一部當(dāng)代簡史

DeepTech深科技 2026-04-20 13:44:46
0 跟貼 0
從制造到智能的底層重構(gòu) 汽車業(yè)正在發(fā)生“物理AI改命”

環(huán)球網(wǎng)資訊 2026-04-20 18:35:08
0 跟貼 0
「中國版Grok上車」分水嶺：階躍交出首份量產(chǎn)答卷

雷峰網(wǎng) 2026-04-20 18:37:07
0 跟貼 0
「部署態(tài)」元年，這家公司就把落地方案卷到了七種

機(jī)器之心Pro 2026-04-20 14:20:54
0 跟貼 0
具身智能公司開始積極「進(jìn)廠」打工

鈦媒體APP 2026-04-20 14:44:38
0 跟貼 0
電動車剎車原理，內(nèi)部結(jié)構(gòu)一目了然，多年疑惑瞬間被解開！

杰克愛生活 2026-04-18 08:47:49
0 跟貼 0
全民閱讀活動周，一起來讀原著、學(xué)原文、悟原理

人民資訊 2026-04-20 20:59:44
0 跟貼 0
法國通過文物歸還法案敦煌藏經(jīng)洞文物就能回歸嗎

澎湃新聞 2026-04-20 08:08:29
10876 跟貼 10876
解放軍133號艦艇編隊從橫當(dāng)水道進(jìn)入太平洋專家解讀

環(huán)球網(wǎng)資訊 2026-04-20 12:17:06
156 跟貼 156
殲-35A裝的果然是它：12噸推力，一個參數(shù)直接打破F-35神話

軍武時間線 2026-04-19 19:32:18
0 跟貼 0
V8發(fā)動機(jī)模型

制造科技 2026-04-19 17:41:19
0 跟貼 0
寧波男子收到陌生賬號轉(zhuǎn)賬8萬余元，三天后奢侈品牌商家找來：員工誤將其收款碼給客戶

齊魯壹點 2026-04-20 07:19:18
1481 跟貼 1481
快評星途EX7：技術(shù)下放與價值升維，這次突圍成了？

車壹圈 2026-04-20 09:03:28
0 跟貼 0
丈夫展示翻鍋技術(shù)，妻子不服氣模仿，結(jié)果竟然憑空消失！

鴨嘴愛搞笑 2026-04-20 13:00:55
1 跟貼 1
川崎 H2R模型摩托

制造科技 2026-04-16 21:58:46
15 跟貼 15
黃仁勛：DeepSeek若在華為芯片上首發(fā)，對美國將是災(zāi)難！

快科技 2026-04-20 13:52:58
1 跟貼 1
驗資3000萬每日預(yù)約名單仍排滿，高凈值人群“排隊”看房，4月的杭州樓市是高端局

都市快報橙柿互動 2026-04-20 14:35:53
120 跟貼 120
突然變強(qiáng)！速度翻4倍，GPT Pro驚現(xiàn)「神級」操作，網(wǎng)友懷疑GPT-5.5已就位

新智元 2026-04-20 17:10:50
0 跟貼 0
姑娘大街上直播跳舞，硬件條件太差了，想復(fù)制阿梓的路不可能

葫蘆萌娃 2026-04-16 15:19:14
0 跟貼 0
90%出租率仍被漲租逼退：麗柏廣場招拍掛背后的環(huán)市東商圈之困

新快報新聞 2026-04-20 17:53:06
24 跟貼 24
媒體：日方有一種陰毒"戰(zhàn)略" 在自衛(wèi)隊宣揚(yáng)未來再侵華

新民周刊 2026-04-20 09:08:09
2268 跟貼 2268
快檢查自家陽臺！有人家里已大量出現(xiàn)，官方提醒：千萬別摸

環(huán)球網(wǎng)資訊 2026-04-18 16:23:18
1026 跟貼 1026
【硬核拆解Claude Code】為什么Claude是最強(qiáng) Agent？四層架構(gòu) + 記憶壓縮 +

盧菁老師 2026-04-20 11:08:43
0 跟貼 0
首發(fā)EMB線控制動技術(shù) 星途EX7上市搶先置換價19.49萬起

汽車相對論 2026-04-20 21:45:43
3 跟貼 3
售15.99萬起！搭載華為乾崑艙內(nèi)激光的全新深藍(lán)S07，正式上市

CAR路里 2026-04-20 21:56:23
1 跟貼 1
保價2000元機(jī)蓋運輸中損壞，德邦理賠只肯賠1300元；車主：我不要錢了，你賠我一個機(jī)蓋總可以吧

大風(fēng)新聞 2026-04-20 19:12:04
36 跟貼 36
fate系列中的中國體系是什么樣的？迷人的老祖宗依舊權(quán)威！

阿軒速看 2026-04-19 00:22:04
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Claude Mythos核心架構(gòu)開源！22歲天才一人破解，融合DeepSeek思路

HUAWEI Pura X Max發(fā)布 售價10999元起

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

阿森納已拼盡全力，但你早干嘛去了...

《八千里路云和月》田家泰暗殺

利潤暴跌7成，字節(jié)到底在做什么

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

OPPO影像旗艦高端發(fā)力 Find X9 Ultra走出國門

大降溫：來澳洲留學(xué)的中國學(xué)生，創(chuàng)近12年新低！

沙特官宣：全球最大單體建筑，延期十年！網(wǎng)友：又是畫餅？

特朗普:美艦向伊朗貨船開火炸出個洞

HUAWEI Pura X Max發(fā)布售價10999元起

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻我腿軟了