<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      22歲天才復(fù)刻Claude神話,770M參數(shù)媲美1.3B模型

      0
      分享至

      簡直太瘋狂了!

      Anthropic捂得最嚴(yán)實的Claude Mythos,竟被一個22歲的年輕人扒開了。



      不是泄露,不是內(nèi)部員工跳槽帶出來的。

      是一個叫Kye Gomez的初創(chuàng)CEO,以第一性原理,硬生生把Claude Mythos的核心架構(gòu)從頭推導(dǎo)了出來。

      更炸裂的是,他把這一項目——OpenMythos全開源了。





      復(fù)現(xiàn)帖引近100萬人圍觀

      一時間,全網(wǎng)都坐不住了,網(wǎng)友們紛紛驚嘆Mythos背景精妙的設(shè)計。





      先說結(jié)論,Kye Gomez認(rèn)為——

      Claude Mythos的核心不是一個更大的Transformer,而是一種叫做「循環(huán)深度Transformer」(Recurrent-Depth Transformer, RDT)的架構(gòu)。

      說白了就是,同一套權(quán)重,在一次前向傳播里循環(huán)跑最多16次。



      傳統(tǒng)大模型像蓋高樓,一層一層往上堆參數(shù)。100層不夠就200層,200層不夠就500層。

      參數(shù)越多,模型越大,顯存吃得越猛,訓(xùn)練成本越恐怖。

      但RDT完全換了一個思路:不蓋高樓,原地跑圈。

      模型只有一個核心計算塊,但這個塊會被反復(fù)執(zhí)行。每循環(huán)一次,隱藏狀態(tài)就更新一次,就相當(dāng)于「多想了一步」。

      而且所有的思考都在連續(xù)潛空間里默默進(jìn)行——不用像思維鏈(CoT)那樣,每一步都吐出可見的token。

      這不是重復(fù)計算,是迭代推理。



      整個OpenMythos的架構(gòu)分三段:

      Prelude(序曲)→ Recurrent Block(循環(huán)核心)→ Coda(終章)

      Prelude和Coda是標(biāo)準(zhǔn)的Transformer層,各跑一次。

      真正的計算核心是中間的「循環(huán)塊」,它最多循環(huán)16次,每次循環(huán)的更新規(guī)則是:

      h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

      其中e是Prelude編碼后的原始輸入,每一步都會被重新注入,防止模型在循環(huán)中「跑偏」。



      光靠循環(huán)能解釋Mythos推理的「深度」,但解釋不了廣度。

      OpenMythos在循環(huán)核心的每個FFN層,都替換成了MoE層,設(shè)計參考了DeepSeek-MoE:

      大量細(xì)粒度的路由專家;

      每個token只激活其中一小部分;

      少量「共享專家」始終激活,負(fù)責(zé)吸收跨領(lǐng)域的通用知識。

      最精妙的一點,隨著隱藏狀態(tài)h_t在循環(huán)中不斷演化,路由器在每一層循環(huán)深度會選擇不同的專家子集。

      也就是說,雖然權(quán)重共享,但每次循環(huán)的計算路徑完全不同:

      MoE提供廣度,循環(huán)提供深度。



      注意力機(jī)制默認(rèn)使用「多潛變量注意力」(Multi-Latent Attention),來自DeepSeek-V2,把KV緩存壓縮成低秩潛變量,在生產(chǎn)規(guī)模下能實現(xiàn)10-20倍的KV顯存節(jié)省。

      三個額外機(jī)制保證循環(huán)穩(wěn)定性:LTI約束注入(譜半徑強(qiáng)制小于1)、自適應(yīng)計算時間(ACT)逐位置停機(jī)、以及深度級LoRA適配器讓每次迭代都有獨立的行為調(diào)整能力。

      細(xì)思極恐,這套設(shè)計精密得像一臺瑞士鐘表。

      這不是嘴上說說。

      此前,來自Parcae團(tuán)隊的實驗數(shù)據(jù):一個770M參數(shù)的循環(huán)模型,在同等訓(xùn)練數(shù)據(jù)下,能達(dá)到1.3B標(biāo)準(zhǔn)Transformer的下游任務(wù)質(zhì)量。

      換句話說——用一半的參數(shù),干了同樣的活。



      這對整個行業(yè)意味著什么?

      對消費級硬件來說,這是天大的利好。以前跑個像樣的模型,沒有A100你連門都進(jìn)不了。

      現(xiàn)在呢?推理深度是時間換空間——你不需要更多的顯存,只需要多跑幾圈。

      更重磅的是,這徹底改寫了AI的Scaling法則。以前拼的是誰的參數(shù)多、誰的GPU多、誰的電費賬單厚。

      現(xiàn)在的規(guī)則變了:未來最強(qiáng)的模型,不是參數(shù)最多的,而是想得最多次的。



      這位扒開22歲Claude Mythos黑箱的大男孩Kye Gomez,是Swarms的創(chuàng)始人,之前還領(lǐng)導(dǎo)過Agora Labs。

      他的研究重點是——大規(guī)模多智能體系統(tǒng)、替代模型架構(gòu)和多模態(tài)模型。



      個人主頁顯示,Kye Gomez高中畢業(yè)之后,就開始投身于創(chuàng)業(yè)。



      在2021年-2024年間,他同時擔(dān)任了三家公司的聯(lián)創(chuàng)/CEO,創(chuàng)建立了一個以「APAC」為品牌的生態(tài)體系。

      其覆蓋了AI深科技、媒體、食品科技等多個領(lǐng)域。



      這件事最讓人震撼的,不是架構(gòu)本身有多厲害。

      還全開源了,而且只要幾行代碼就能跑。

      這意味著什么?

      閉源實驗室的架構(gòu)優(yōu)勢,正在以肉眼可見的速度消失。

      FT最新報道中,Dario Amodei重磅預(yù)測,中國將在12個月內(nèi),完全復(fù)刻出具備Claude Mythos級別能力的大模型。



      針對外界對LLM性能是否觸及天花板的質(zhì)疑,Amode用一句富有詩意的話給出了回應(yīng)——

      彩虹沒有盡頭,只有彩虹本身。

      他強(qiáng)調(diào),目前完全看不到技術(shù)放緩的跡象。

      當(dāng)一個人用公開信息就能重建最核心的技術(shù),護(hù)城河就不再是架構(gòu)了。

      聲明:個人原創(chuàng),僅供參考

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      突發(fā)!以色列,發(fā)動空襲!美軍曝出大消息!原油直線跳水!

      突發(fā)!以色列,發(fā)動空襲!美軍曝出大消息!原油直線跳水!

      新浪財經(jīng)
      2026-04-24 20:11:04
      《歌手2026》來了,看到陣容名單后,難掩激動淚水,期待的都來了

      《歌手2026》來了,看到陣容名單后,難掩激動淚水,期待的都來了

      星宿影視鴨
      2026-04-23 18:19:24
      兒童喝牛奶,身高到底能竄多少? 20年追蹤數(shù)據(jù)

      兒童喝牛奶,身高到底能竄多少? 20年追蹤數(shù)據(jù)

      新浪財經(jīng)
      2026-04-20 01:43:28
      芯片觀察者:美國先將中國芯片鎖死在28nm,然后打擊成熟芯片擴(kuò)產(chǎn)

      芯片觀察者:美國先將中國芯片鎖死在28nm,然后打擊成熟芯片擴(kuò)產(chǎn)

      蜉蝣說
      2026-04-24 11:38:51
      為什么說"飛機(jī)最安全",是一個精心設(shè)計的統(tǒng)計學(xué)陷阱?

      為什么說"飛機(jī)最安全",是一個精心設(shè)計的統(tǒng)計學(xué)陷阱?

      半解智士
      2026-04-22 14:35:15
      用了小蘇打才知道:原來清潔可以這么簡單又省錢,真的厲害!

      用了小蘇打才知道:原來清潔可以這么簡單又省錢,真的厲害!

      家居設(shè)計師蘇哥
      2026-04-22 13:22:48
      宋慧喬新照被嘲又老又丑?新活動輕松美回來,力壓李冰冰蘇菲瑪索

      宋慧喬新照被嘲又老又丑?新活動輕松美回來,力壓李冰冰蘇菲瑪索

      阿傖說事
      2026-04-24 01:07:51
      莫雷諾:和上海的老朋友通過微信聯(lián)系,對我來說申花就是家

      莫雷諾:和上海的老朋友通過微信聯(lián)系,對我來說申花就是家

      懂球帝
      2026-04-24 18:47:49
      實測DeepSeekV4:天下武功,唯快不破

      實測DeepSeekV4:天下武功,唯快不破

      字母榜
      2026-04-24 15:17:13
      國民黨、民眾黨聯(lián)手彈劾賴清德 5月19日將投票表決 此前累計超500萬人參與網(wǎng)絡(luò)聯(lián)署

      國民黨、民眾黨聯(lián)手彈劾賴清德 5月19日將投票表決 此前累計超500萬人參與網(wǎng)絡(luò)聯(lián)署

      每日經(jīng)濟(jì)新聞
      2026-04-24 18:53:33
      深圳一人行道僅0.7米寬,通行如過“獨木橋”?最新回應(yīng):重點督辦!

      深圳一人行道僅0.7米寬,通行如過“獨木橋”?最新回應(yīng):重點督辦!

      揚子晚報
      2026-04-24 17:31:10
      強(qiáng)迫男下屬提供性服務(wù),辭職的美國女勞工部長,長得丑可玩的花呀

      強(qiáng)迫男下屬提供性服務(wù),辭職的美國女勞工部長,長得丑可玩的花呀

      俠客棧
      2026-04-23 14:52:19
      廣東再輸福建揪出禍?zhǔn)?,全?分+正負(fù)值最低+三不沾,你可退役了

      廣東再輸福建揪出禍?zhǔn)?,全?分+正負(fù)值最低+三不沾,你可退役了

      南海浪花
      2026-04-24 22:52:37
      福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

      福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

      新浪財經(jīng)
      2026-04-24 07:10:27
      吳法憲出獄后,安置在濟(jì)南,同時告訴他有四個安排

      吳法憲出獄后,安置在濟(jì)南,同時告訴他有四個安排

      歷史甄有趣
      2026-04-24 07:25:10
      19投狂砍32分16板!廣東救火大外援首秀大放異彩,杜鋒驗貨成功

      19投狂砍32分16板!廣東救火大外援首秀大放異彩,杜鋒驗貨成功

      老葉評球
      2026-04-24 22:19:59
      金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

      金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

      小徐講八卦
      2026-04-24 06:06:44
      華晨宇演唱會延期哭了,撫仙湖居民發(fā)聲:那我們之前的犧牲算什么

      華晨宇演唱會延期哭了,撫仙湖居民發(fā)聲:那我們之前的犧牲算什么

      離離言幾許
      2026-04-23 20:05:27
      北京首鋼50分大勝!超級外援首秀9分,曾凡博爆發(fā),麥基18分

      北京首鋼50分大勝!超級外援首秀9分,曾凡博爆發(fā),麥基18分

      體壇瞎白話
      2026-04-24 21:25:36
      河南12歲貧困女孩,被校長收留免費讀書,校長待她如親生。誰知,多年后,無意看見校長車內(nèi)的一件衣服,她竟2次退學(xué)…

      河南12歲貧困女孩,被校長收留免費讀書,校長待她如親生。誰知,多年后,無意看見校長車內(nèi)的一件衣服,她竟2次退學(xué)…

      勵職派
      2026-04-24 12:48:47
      2026-04-24 23:28:49
      淡淡稻花香s
      淡淡稻花香s
      淡淡稻花香
      617文章數(shù) 274關(guān)注度
      往期回顧 全部

      藝術(shù)要聞

      2025最繪畫--第四屆中國青年油畫作品展 | 油畫選刊(三)

      頭條要聞

      賴清德面臨彈劾投票 島內(nèi)網(wǎng)友:不記名投票一定過

      頭條要聞

      賴清德面臨彈劾投票 島內(nèi)網(wǎng)友:不記名投票一定過

      體育要聞

      上海男籃23連勝+主場全勝 姚明之后最強(qiáng)一季

      娛樂要聞

      停工16個月!趙露思證實接拍新劇

      財經(jīng)要聞

      LG財閥內(nèi)斗:百億美元商業(yè)帝國爭奪戰(zhàn)

      科技要聞

      DeepSeek V4牽手華為,價格依然"屠夫級"

      汽車要聞

      零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

      態(tài)度原創(chuàng)

      教育
      游戲
      親子
      公開課
      軍事航空

      教育要聞

      公辦高校:著力提升研究生“抬頭率”

      PS獨占登PC純屬被逼無奈!跨平臺只為活下去?

      親子要聞

      寶媽必學(xué),孩子知道身體隱私部位和能對侵犯說不,是兩回事!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊陷入互相封鎖僵局

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲国产成人精品女人久久久| 日韩AV无码电影| 国产av夜夜欢一区二区三区| 欧美熟妇丰满肥白大屁股免费视频| 亚洲亚洲人成综合网络| a级福利毛片| 中文字幕乱妇无码AV在线| 日韩十八不禁| 国产免费午夜福利在线播放11| 在线天堂最新版资源| 一本大道人妻中字幕在线视频| 日韩欧美亚洲综合久久| 中文字幕美人妻亅u乚一596| 国产免费午夜福利在线播放| 久久久精品一区aaa片| 亚洲日韩每日更新| 亚洲综合精品| 国产人妻人伦精品久久| 成年女人免费视频播放体验区| 亚洲av无码专区在线厂| 久久亚洲欧美日本精品| 中文字幕一级A片免费看| 枣庄市| http://m.hzhuiwan.cn/| 华宁县| 中文字幕人妻无码系列第三区| 日本久久久久| 亚洲成人小说| 77777_亚洲午夜久久多人| 亚洲AV无码久久久久网站蜜桃 | 狠狠噜天天噜日日噜| 精品亚洲国产成人a片app| 国产一线视频在线观看高清| 精品人妻一区二区三区奶水| 亚洲香蕉视频天天爽| 台北县| 临沂市| 最新国产精品拍自在线播放 | 宜良县| 日本乱码伦在线观看| 欧美一本大道香蕉综合视频|