<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      芯片受限,意外加速了中國模型

      0
      分享至


      • ? 海外的模型廠商有足夠多的頂級 GPU,可以靠堆算力的方式來直接處理信息。國內算力受限,必須在模型的底層設計上想辦法,以彌補硬件差距。 「中國的廠商,在資源有限的情況下,不得不去做這些架構優化」

      • ? Transformer 模型在處理長文本時,有一個叫 Attention(注意力機制)的核心模塊。它的作用是讓模型在生成每一個字的時候「回頭看」前面所有內容。文本越長,回頭看的計算量越大,增長速度是平方級的。百靈把大部分 Attention 層替換成了計算量更低的線性版本,但剩下沒替換的那一小部分,仍然在超長上下文處理時吃掉了總算力的六成以上。 「成本,60% 都花在這了」

      • ? 很多的模型評測都是單項考試,并不能很好的指導模型發展,比如:搜索能力單獨考,寫代碼能力單獨考。但真實工作從來都是混著來的。程序員寫代碼寫到一半卡住了,去搜一下,找到思路回來接著寫,但很可惜,對于這種情況, 「目前沒有任何一個 benchmark,能同時測好兩件事」

      • ? 模型在變小,能力在變強。目前實際的預訓練實驗觀察就是,不到一年時間,一個不到200B總參數的模型,效果就可以超過萬億參數的模型。但對于正在做 Agent、做應用的團隊來說,等不了這一年。 「一年之后 200B 模型,能打贏今天的 1T。但一年時間,很多公司已經活不了了」

      以上內容,來自我和零幺的對話,他在螞蟻負責語言基座模型的訓練

      本篇歸屬「賽博史記 · 煉丹者列傳」,以對話來記錄每個知名大模型背后的人,以及他們每天需要面對的問題: 中國模型,算力有限的情況下,要如何開展工作、產品和模型之間的能力應該怎么對齊,哪些技術賭注現在就要下

      在這個混亂的時代里,讓我們看看,這些人的有著怎樣的洞察,以及正在作出怎樣的判斷

      零幺,螞蟻的語言基座模型的負責人

      他是螞蟻集團基礎智能部技術總監,負責百靈的基座訓練。但他以前從來沒做過 NLP,讀書到工作都在做圖機器學習,2024 年初才轉行,開始搞語言模型

      一個從沒碰過 NLP 的人,兩年不到做到了國內頭部模型的負責人

      我以為他會說些什么關于天賦或者機緣的話,結果他說:
      大家想干都可以轉,這個行業,是向所有人開放的

      2026 年 2 月,百靈發布了 2.5 系列,包括一個萬億參數的即時模型 Ling-2.5-1T 和一個萬億參數的思考模型 Ring-2.5-1T。全部開源,1T 總參 63B 激活,原生 256K 上下文窗口,外推支持 1M

      在國內開源界,近兩年中,百靈也是除 Kimi 以外唯一發布過萬億參數規模模型的廠商

      我們聊了將近兩小時,然后我發現:零幺說話的方式不太一樣,他很少講愿景,幾乎不用形容詞,大部分時間在報數字和做判斷。聊到架構選擇、評測盲區、產品協作這些話題時,他給出的都是具體方案

      以下內容,基于我們的對談

      兩條路線

      國內和海外的模型廠商,在處理 Attention(注意力機制)這件事上,走了兩條完全不同的路。海外靠算力硬撐,用標準的 Full Attention 讓模型每次完整看一遍所有內容;國內算力受限,必須在架構創新,要用線性化、稀疏化等方式降低 Attention 的計算量

      先解釋一下 Attention 在做什么。大語言模型在生成每一個字的時候,需要「回頭看」前面所有已經輸入和生成的內容,決定哪些跟當前要生成的字最相關。這個過程就是 Attention 在做的事。文章越長,回頭看的范圍越大,計算量增長是平方級的:長度翻倍,計算量大約翻四倍

      海外廠商用的 Full Attention 效果好,穩定,就是費算力。但 Google、OpenAI、Anthropic 有足夠的頂級 GPU,撐得住

      國內的情況不一樣。2022 年美國芯片出口管制升級后,國內能拿到的最好 GPU 是 H800,計算能力跟英偉達旗艦 H100 一樣,但芯片之間的通信帶寬從 900GB/s 砍到了 400GB/s,多張 GPU 協同工作時效率直接打了折。同樣的訓練任務,必須用更聰明的方式完成

      在這個約束下,國內廠商做了兩件海外幾乎不做的事

      第一件:MoE 的極致稀疏化。 MoE(混合專家模型)的原理是:模型雖然有一萬億個參數,但每次只讓其中一小部分參數「上場」干活。總參數大,知識儲備多,但實際消耗的算力很小

      國內把這個思路推到了極致。DeepSeek 和百靈做到 256 個專家激活 8 個,Kimi K2 做到 384 個專家激活 8 個,千問 3.5 最激進,512 個專家激活 10 個。但是海外的話,大多不會采用極度稀疏和細粒度的混合專家方案,稀疏度差了一個數量級

      第二件:給 Attention 動手術。 Full Attention 在長文本下成本太高,國內廠商想辦法降低這個成本,目前形成了三條路線:

      線性化。 把 Attention 的計算量從平方級降到線性級。MiniMax 走得最早也最激進,MiniMax-Text-01 每 8 層中 7 層用 Lightning Attention(線性注意力),只留 1 層標準 Attention,訓練窗口 100 萬 token,推理外推到 400 萬。百靈 2.5 也是 1:7 的混合比例。千問同樣在 Linear Attention 方向持續投入

      稀疏化。 保留標準 Attention,但讓模型學會「跳著看」,只關注最重要的內容。DeepSeek V3.2 和 GLM-5 走的是這條路,兩者都采用了 DSA 架構

      做減法。 Kimi K2 旗艦模型沒有換 Attention 機制,而是把注意力頭從 128 個砍到 64 個。團隊發現翻倍的注意力頭在 128K 上下文時多消耗 83% 算力,性價比太低,直接砍半

      不過 Kimi 后來也單獨出了一個探索性質的 Kimi Linear 小模型(48B),用 3:1 混合注意力,說明線性化方向他們也在看

      總結下,大概是這樣 - MiniMax、百靈、千問 all-in 線性化; - DeepSeek、GLM 走稀疏化; - Kimi 靠 MoE 高稀疏加 MLA 壓縮來省算力,Attention 機制本身暫時不大改 MoE 方面基本是共識,大家都在往極致稀疏推

      這些路線看起來各有各的選擇,但零幺認為背后只有一個驅動力:
      「如果你給我 100 萬張 H100,我也會做海外那個選擇」

      Full Attention 效果穩定,架構非常成熟,就是費算力,算力夠用的話沒人愿意折騰架構。線性化、稀疏化、砍注意力頭,本質是同一個約束條件逼出來的

      DeepSeek 訓 V3 用了 2048 張 H800,278 萬 GPU 小時。Meta 訓 Llama 3 405B 花了 3080 萬 GPU 小時,11 倍于 DeepSeek

      「中國的廠商,在資源有限的情況下,你不得不去做這件事情」

      而這些為了省算力做的架構改造,恰好撞上了 Agent 時代最核心的需求

      60% 的計算成本

      百靈 2.5 的 80 層網絡里,已經把 72 層換成了線性注意力,只留了 8 層標準注意力(MLA)。對此,零幺補充到:上下文到 256K 以上時,那僅有的 8 層 MLA,占了總計算成本的 60% 以上

      為什么 8 層就能吃掉 60%?因為 Agent 場景下上下文會變得非常長。人問一句、模型回一段,上下文可能就幾千字。但 Agent 執行任務的時候,中間不斷地搜索、讀文檔、寫代碼、看結果、再搜索,每一輪的輸入輸出都在堆積。一個 coding agent 連續工作幾個小時,上下文輕松突破 32K,到 128K、256K

      上下文越長,標準 Attention 的計算量膨脹越快(平方級增長),而線性注意力只是線性增長。所以到了長上下文場景,那 8 層標準注意力雖然數量少,成本卻遠遠超過了 72 層線性注意力

      在這一方面,百靈 2.5 用的是 1:7 混合比例(每 8 層里 1 層 MLA + 7 層 Lightning Linear Attention)。零幺說他們專門跑了一輪 Scaling Law 實驗,在不同混合比例下對比效果和效率的曲線,最后收斂到 1:7。百靈下一輪架構升級要解決的,還是這 60%

      「國內大部分模型,要么在稀疏化上走得遠,要么在線性化上走得遠。否則會被效率打掉」

      在效率和效果的優先級上,零幺給了一個跟行業主流不同的判斷:「大家更直觀的感受上,最大的挑戰在效果側。但在我的認知里面,效果和效率是同等重要的」

      行業里大部分聲音,會說模型能力還不夠強,要繼續提升效果,但可能也需要算一筆賬:當資源有限、但 Agent 需求過剩的時候,效率就會變成生死問題

      效果不夠強,還能用;但總是響應超時,那就沒有后續了

      在這里,零幺有個核心判斷:架構本身不決定效果,但架構決定效率,而迭代效率最終決定模型效果。用更老的架構,你有足夠算力同樣能做出好模型——問題是國內沒有那個算力

      Benchmark 高分,手感差

      模型評測分數很高,真上手用卻覺得哪里不對勁

      我把這個問題丟給了零幺,他則給了我一個很具體的原因:現在所有 benchmark 都是單項考試,搜索能力單獨考,寫代碼能力單獨考。但真實工作從來并非如此,幾個工具要同時用、來回切換,而目前沒有任何評測在測這個

      大多數程序員日常工作時同時在用好幾個工具,寫代碼卡住了去搜一下,找到思路回來接著寫,寫完跑測試,報錯了再查文檔。幾個工具來回切換。但 Terminal Bench 測命令行操作,里面沒有搜索;Agent Search benchmark 測搜索能力,里面沒有 coding 環境。每個維度單獨測分都不低

      「你讓模型單獨搜索它會,單獨寫代碼它也會。但你讓它邊搜邊寫,就崩了」

      我自己評估模型的時候,也會看 coding 分數、math 分數、instruction following 分數。但如果一個模型搜索強、編碼也強,就是沒法同時調兩個工具配合干活,那這些單項分數就要打折

      零幺給這個方向起了個名字,叫 production research:去觀察真正在生產環境里工作的人是怎么干活的,基于這些真實模式去設計評測和訓練數據

      我問:你覺得有哪些 Benchmark 是被低估了嗎?
      回答:GAIA2,相比一些其他榜單,GAIA2 可能更接近真實 Agent 場景,允許 Agent 異步執行多個有依賴關系的任務。做這個 benchmark 的團隊據說已經解散了,代碼有 bug 沒人維護。覺得這個方向對,就讓百靈團隊自己把 bug 修了,拿來做內部評估

      我當時嘆了聲牛逼...判斷方向是對的,就動手補上缺的東西

      聊到 Claude Code 為什么在多工具協同上表現好,零幺幫我分析了 Anthropic 的做法,認為一個重要原因是他們確實在做 production research,收集了大量真實工程師的工作模式來指導訓練

      「這個事,靠的說投入和耐心,不單單是聰明」,以及...被嚴重低估的,是「多工具協同」這整個能力維度

      松耦合

      螞蟻內部,產品團隊和基模團隊的關系是:松耦合

      產品團隊提前半年給出未來想要什么能力,基模團隊從中選擇能做且應該做的,兩邊在一個「池子」里找交集,各自保留各自的判斷

      我問:如果兩年后螞蟻的模型大獲成功,它能占據的心智可能是什么?
      回答到:專業服務業

      這也是螞蟻的固有心智:從支付延伸到金融、醫療、生活服務,都是專業服務業,行業門檻高,專業從業者稀缺

      普通人享受不到好的金融服務,社區醫生水平有限所以大家都去三甲,搜索引擎查個癥狀小毛病看著像絕癥。AI 如果能降低這些服務的門檻,就是螞蟻做基模的支點

      具體是這樣運作的:靈光(螞蟻的 C 端 AI 產品)團隊提前半年做一個 demo 視頻,里面可能有十幾個設想中的功能。百靈團隊看完之后,判斷哪些能做、哪些三個月能出、哪些一年后還做不出來,從中 pick 一些去推進

      一個例子:2025 年 2~3 月時,國內所有模型都生成不了好看的 HTML 頁面,只有 Claude 能做到。靈光團隊則評估這個很重要,就放進需求池。百靈在 2.0 版本訓練中就開始強化 HTML 生成。等靈光產品上線時,能力已經準備好了

      零幺說:Google 內部也是類似模式,3~6 個月為周期收集產品需求

      一年和一年

      模型在變小,能力在變強,一年后,一個 200B 的模型,就能打贏今天的 1T

      這里可能不是判斷了,我們實際在訓練中的模型就能看到這個趨勢了。類似摩爾定律,對基模目前可能是不到一年,同等能力對應的規模就可能可以壓縮一個數量級

      但做 Agent、做應用的團隊等不了這一年

      同一個「一年」,對模型廠商是技術迭代的周期,對應用公司是生死存亡的倒計時

      千問 3.5 已經在驗證這個趨勢,397B 總參 17B 激活,在不少維度上打贏了上一代萬億參數模型。GLM-5 用 744B 總參 40B 激活拿到了 a16z 所說的「最好的開源模型」

      在模型訓練中,零幺跟我講了一個他認為被嚴重低估的問題:過程獎勵

      現在主流做法是 Agent 跑完整個任務后,看最終結果給一個獎勵信號。但如果 Agent 連續跑幾個小時,中間幾十上百步操作,最后才給一個「對」或「錯」,信號太稀疏,模型很難從中學到東西

      百靈 2.5 在數學證明題上的進步,零幺認為很大程度來自逐步驗證:每一步推導都檢查對錯,整個過程就是結果。這跟 Agent 場景的需求結構一樣:長程執行,中間每一步都需要反饋

      同時,他也很坦率地告訴我說,Agent 的過程獎勵怎么做,目前沒有成熟方案。「如果能在這個位置找到更好的想法,整個 Agent 訓練的效率會提一截」。

      我發現,在聊到沒解決的問題時,零幺反而說得更細

      關于思考模型和即時模型,零幺表示:各家現在優先卷思考模型,因為更能體現 AGI 上限,benchmark 卷得更猛。代價是即時模型被普遍忽視

      「你會發現各家現在對應的非思考模型,能力就偏弱了」

      長遠看一定會合到一起。但現階段分開做是也是合理的:兩種模型的上限還沒探清楚,合在一起反而會互相拖累

      聊到最后,我們還說了件小事:這次百靈 2.5 的官方發布稿,是零幺用百靈 1T 模型寫的

      「以前用 xxx 模型寫文檔,會蹦出來一堆很科幻的詞語,每次都要大改。這次用百靈寫,很多直接就可以用了」

      我問:覺得百靈 2.5 寫出來的東西,具體好在哪
      他想了想說:像一篇正常的文章,而不像一篇玄幻小說了

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      官宣!范冰冰斬獲歐洲電影節終身成就獎,與戛納影帝同臺領獎!

      官宣!范冰冰斬獲歐洲電影節終身成就獎,與戛納影帝同臺領獎!

      草莓解說體育
      2026-04-03 12:11:00
      人在家中坐,禍從天上來,郭晶晶沒想到,霍啟剛竟步入王勁松后塵

      人在家中坐,禍從天上來,郭晶晶沒想到,霍啟剛竟步入王勁松后塵

      老踝是個手藝人
      2026-03-26 17:25:36
      伊朗政權絞死兩名人民圣戰支持者

      伊朗政權絞死兩名人民圣戰支持者

      一種觀點
      2026-03-30 15:51:17
      “破日不上墳,上墳辱先人”,4月5日清明節,今年哪天上墳最好?

      “破日不上墳,上墳辱先人”,4月5日清明節,今年哪天上墳最好?

      小談食刻美食
      2026-04-02 20:48:49
      94年,我借宿在女同學家,夜晚聽見她娘問:那后生,你中意不?

      94年,我借宿在女同學家,夜晚聽見她娘問:那后生,你中意不?

      阿凱銷售場
      2026-03-29 18:58:18
      詭異!廣廈隊為何兵敗如倒?王博居然這樣說,球迷:留力戰廣東?

      詭異!廣廈隊為何兵敗如倒?王博居然這樣說,球迷:留力戰廣東?

      南海浪花
      2026-04-03 08:29:56
      伊朗政府發言人:我們已經勝利了,美以任何目標都沒有實現丨獨家

      伊朗政府發言人:我們已經勝利了,美以任何目標都沒有實現丨獨家

      鳳凰衛視
      2026-04-02 13:38:08
      吳越現身佛山飯館,用不銹鋼小鐵盆喝粥,泡油條,單身生活很瀟灑

      吳越現身佛山飯館,用不銹鋼小鐵盆喝粥,泡油條,單身生活很瀟灑

      動物奇奇怪怪
      2026-04-03 12:53:44
      人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

      人老了,想多活幾年,先管住自己這10點:1、不摔倒,2、不勞累…

      荷蘭豆愛健康
      2026-03-28 09:28:48
      伊朗譴責:美國用新型導彈致21名青少年遇難,令人發指

      伊朗譴責:美國用新型導彈致21名青少年遇難,令人發指

      觀察者網
      2026-04-02 22:01:04
      健身后欲望很大是怎么回事?

      健身后欲望很大是怎么回事?

      性學研究僧
      2026-04-02 20:11:16
      俄油到了家門口,卻被美國擺一道,托卡耶夫的手段,中國不得不防

      俄油到了家門口,卻被美國擺一道,托卡耶夫的手段,中國不得不防

      深析古今
      2026-04-03 15:03:51
      工信部力推“全光交換” OCS概念應聲大漲 機構:有望實現規模替代

      工信部力推“全光交換” OCS概念應聲大漲 機構:有望實現規模替代

      財聯社
      2026-04-03 13:20:13
      從司法部長到情報總監,還有FBI局長、陸軍部長:特朗普政府“大換血”來襲

      從司法部長到情報總監,還有FBI局長、陸軍部長:特朗普政府“大換血”來襲

      紅星新聞
      2026-04-03 15:23:17
      專家警告:每天規律散步運動,就等于給血管“上鎖”?真相來了

      專家警告:每天規律散步運動,就等于給血管“上鎖”?真相來了

      荊醫生科普
      2026-04-03 13:38:28
      小米漲價前,竟然先降價?

      小米漲價前,竟然先降價?

      機智貓
      2026-04-03 15:26:18
      四川達州一女神太漂亮了,這是什么逆天顏值,媲美西施并不過分

      四川達州一女神太漂亮了,這是什么逆天顏值,媲美西施并不過分

      TVB的四小花
      2026-04-03 09:56:25
      保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

      保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

      歷史點行
      2026-03-29 13:38:28
      《乘風2026》初見面直播翻車!王濛吐槽太磨嘰,觀眾狂呼謝楠救場

      《乘風2026》初見面直播翻車!王濛吐槽太磨嘰,觀眾狂呼謝楠救場

      露珠聊影視
      2026-04-03 11:23:50
      美方指責中方騷擾扣押懸掛巴拿馬國旗船只,外交部:無中生有,顛倒黑白

      美方指責中方騷擾扣押懸掛巴拿馬國旗船只,外交部:無中生有,顛倒黑白

      澎湃新聞
      2026-04-03 15:28:27
      2026-04-03 15:56:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數 50關注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      健康
      數碼
      教育
      家居
      公開課

      干細胞抗衰4大誤區,90%的人都中招

      數碼要聞

      同一塊主板連“殺”三顆銳龍7 用戶稱華擎B850M已成“連環殺手”

      教育要聞

      教育部:義務教育學校嚴禁設立重點班、實驗班、快慢班

      家居要聞

      溫馨多元 愛的具象化

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版