? 海外的模型廠商有足夠多的頂級 GPU,可以靠堆算力的方式來直接處理信息。國內算力受限,必須在模型的底層設計上想辦法,以彌補硬件差距。 「中國的廠商,在資源有限的情況下,不得不去做這些架構優化」
? Transformer 模型在處理長文本時,有一個叫 Attention(注意力機制)的核心模塊。它的作用是讓模型在生成每一個字的時候「回頭看」前面所有內容。文本越長,回頭看的計算量越大,增長速度是平方級的。百靈把大部分 Attention 層替換成了計算量更低的線性版本,但剩下沒替換的那一小部分,仍然在超長上下文處理時吃掉了總算力的六成以上。 「成本,60% 都花在這了」
? 很多的模型評測都是單項考試,并不能很好的指導模型發展,比如:搜索能力單獨考,寫代碼能力單獨考。但真實工作從來都是混著來的。程序員寫代碼寫到一半卡住了,去搜一下,找到思路回來接著寫,但很可惜,對于這種情況, 「目前沒有任何一個 benchmark,能同時測好兩件事」
? 模型在變小,能力在變強。目前實際的預訓練實驗觀察就是,不到一年時間,一個不到200B總參數的模型,效果就可以超過萬億參數的模型。但對于正在做 Agent、做應用的團隊來說,等不了這一年。 「一年之后 200B 模型,能打贏今天的 1T。但一年時間,很多公司已經活不了了」
以上內容,來自我和零幺的對話,他在螞蟻負責語言基座模型的訓練
本篇歸屬「賽博史記 · 煉丹者列傳」,以對話來記錄每個知名大模型背后的人,以及他們每天需要面對的問題: 中國模型,算力有限的情況下,要如何開展工作、產品和模型之間的能力應該怎么對齊,哪些技術賭注現在就要下
在這個混亂的時代里,讓我們看看,這些人的有著怎樣的洞察,以及正在作出怎樣的判斷
零幺,螞蟻的語言基座模型的負責人
他是螞蟻集團基礎智能部技術總監,負責百靈的基座訓練。但他以前從來沒做過 NLP,讀書到工作都在做圖機器學習,2024 年初才轉行,開始搞語言模型
一個從沒碰過 NLP 的人,兩年不到做到了國內頭部模型的負責人
我以為他會說些什么關于天賦或者機緣的話,結果他說:
大家想干都可以轉,這個行業,是向所有人開放的
2026 年 2 月,百靈發布了 2.5 系列,包括一個萬億參數的即時模型 Ling-2.5-1T 和一個萬億參數的思考模型 Ring-2.5-1T。全部開源,1T 總參 63B 激活,原生 256K 上下文窗口,外推支持 1M
在國內開源界,近兩年中,百靈也是除 Kimi 以外唯一發布過萬億參數規模模型的廠商
我們聊了將近兩小時,然后我發現:零幺說話的方式不太一樣,他很少講愿景,幾乎不用形容詞,大部分時間在報數字和做判斷。聊到架構選擇、評測盲區、產品協作這些話題時,他給出的都是具體方案
以下內容,基于我們的對談
兩條路線
國內和海外的模型廠商,在處理 Attention(注意力機制)這件事上,走了兩條完全不同的路。海外靠算力硬撐,用標準的 Full Attention 讓模型每次完整看一遍所有內容;國內算力受限,必須在架構創新,要用線性化、稀疏化等方式降低 Attention 的計算量
先解釋一下 Attention 在做什么。大語言模型在生成每一個字的時候,需要「回頭看」前面所有已經輸入和生成的內容,決定哪些跟當前要生成的字最相關。這個過程就是 Attention 在做的事。文章越長,回頭看的范圍越大,計算量增長是平方級的:長度翻倍,計算量大約翻四倍
海外廠商用的 Full Attention 效果好,穩定,就是費算力。但 Google、OpenAI、Anthropic 有足夠的頂級 GPU,撐得住
國內的情況不一樣。2022 年美國芯片出口管制升級后,國內能拿到的最好 GPU 是 H800,計算能力跟英偉達旗艦 H100 一樣,但芯片之間的通信帶寬從 900GB/s 砍到了 400GB/s,多張 GPU 協同工作時效率直接打了折。同樣的訓練任務,必須用更聰明的方式完成
在這個約束下,國內廠商做了兩件海外幾乎不做的事
第一件:MoE 的極致稀疏化。 MoE(混合專家模型)的原理是:模型雖然有一萬億個參數,但每次只讓其中一小部分參數「上場」干活。總參數大,知識儲備多,但實際消耗的算力很小
國內把這個思路推到了極致。DeepSeek 和百靈做到 256 個專家激活 8 個,Kimi K2 做到 384 個專家激活 8 個,千問 3.5 最激進,512 個專家激活 10 個。但是海外的話,大多不會采用極度稀疏和細粒度的混合專家方案,稀疏度差了一個數量級
第二件:給 Attention 動手術。 Full Attention 在長文本下成本太高,國內廠商想辦法降低這個成本,目前形成了三條路線:
線性化。 把 Attention 的計算量從平方級降到線性級。MiniMax 走得最早也最激進,MiniMax-Text-01 每 8 層中 7 層用 Lightning Attention(線性注意力),只留 1 層標準 Attention,訓練窗口 100 萬 token,推理外推到 400 萬。百靈 2.5 也是 1:7 的混合比例。千問同樣在 Linear Attention 方向持續投入
稀疏化。 保留標準 Attention,但讓模型學會「跳著看」,只關注最重要的內容。DeepSeek V3.2 和 GLM-5 走的是這條路,兩者都采用了 DSA 架構
做減法。 Kimi K2 旗艦模型沒有換 Attention 機制,而是把注意力頭從 128 個砍到 64 個。團隊發現翻倍的注意力頭在 128K 上下文時多消耗 83% 算力,性價比太低,直接砍半
不過 Kimi 后來也單獨出了一個探索性質的 Kimi Linear 小模型(48B),用 3:1 混合注意力,說明線性化方向他們也在看
總結下,大概是這樣 - MiniMax、百靈、千問 all-in 線性化; - DeepSeek、GLM 走稀疏化; - Kimi 靠 MoE 高稀疏加 MLA 壓縮來省算力,Attention 機制本身暫時不大改 MoE 方面基本是共識,大家都在往極致稀疏推
這些路線看起來各有各的選擇,但零幺認為背后只有一個驅動力:
「如果你給我 100 萬張 H100,我也會做海外那個選擇」
Full Attention 效果穩定,架構非常成熟,就是費算力,算力夠用的話沒人愿意折騰架構。線性化、稀疏化、砍注意力頭,本質是同一個約束條件逼出來的
DeepSeek 訓 V3 用了 2048 張 H800,278 萬 GPU 小時。Meta 訓 Llama 3 405B 花了 3080 萬 GPU 小時,11 倍于 DeepSeek
「中國的廠商,在資源有限的情況下,你不得不去做這件事情」
而這些為了省算力做的架構改造,恰好撞上了 Agent 時代最核心的需求
60% 的計算成本
百靈 2.5 的 80 層網絡里,已經把 72 層換成了線性注意力,只留了 8 層標準注意力(MLA)。對此,零幺補充到:上下文到 256K 以上時,那僅有的 8 層 MLA,占了總計算成本的 60% 以上
為什么 8 層就能吃掉 60%?因為 Agent 場景下上下文會變得非常長。人問一句、模型回一段,上下文可能就幾千字。但 Agent 執行任務的時候,中間不斷地搜索、讀文檔、寫代碼、看結果、再搜索,每一輪的輸入輸出都在堆積。一個 coding agent 連續工作幾個小時,上下文輕松突破 32K,到 128K、256K
上下文越長,標準 Attention 的計算量膨脹越快(平方級增長),而線性注意力只是線性增長。所以到了長上下文場景,那 8 層標準注意力雖然數量少,成本卻遠遠超過了 72 層線性注意力
在這一方面,百靈 2.5 用的是 1:7 混合比例(每 8 層里 1 層 MLA + 7 層 Lightning Linear Attention)。零幺說他們專門跑了一輪 Scaling Law 實驗,在不同混合比例下對比效果和效率的曲線,最后收斂到 1:7。百靈下一輪架構升級要解決的,還是這 60%
「國內大部分模型,要么在稀疏化上走得遠,要么在線性化上走得遠。否則會被效率打掉」
在效率和效果的優先級上,零幺給了一個跟行業主流不同的判斷:「大家更直觀的感受上,最大的挑戰在效果側。但在我的認知里面,效果和效率是同等重要的」
行業里大部分聲音,會說模型能力還不夠強,要繼續提升效果,但可能也需要算一筆賬:當資源有限、但 Agent 需求過剩的時候,效率就會變成生死問題
效果不夠強,還能用;但總是響應超時,那就沒有后續了
在這里,零幺有個核心判斷:架構本身不決定效果,但架構決定效率,而迭代效率最終決定模型效果。用更老的架構,你有足夠算力同樣能做出好模型——問題是國內沒有那個算力
Benchmark 高分,手感差
模型評測分數很高,真上手用卻覺得哪里不對勁
我把這個問題丟給了零幺,他則給了我一個很具體的原因:現在所有 benchmark 都是單項考試,搜索能力單獨考,寫代碼能力單獨考。但真實工作從來并非如此,幾個工具要同時用、來回切換,而目前沒有任何評測在測這個
大多數程序員日常工作時同時在用好幾個工具,寫代碼卡住了去搜一下,找到思路回來接著寫,寫完跑測試,報錯了再查文檔。幾個工具來回切換。但 Terminal Bench 測命令行操作,里面沒有搜索;Agent Search benchmark 測搜索能力,里面沒有 coding 環境。每個維度單獨測分都不低
「你讓模型單獨搜索它會,單獨寫代碼它也會。但你讓它邊搜邊寫,就崩了」
我自己評估模型的時候,也會看 coding 分數、math 分數、instruction following 分數。但如果一個模型搜索強、編碼也強,就是沒法同時調兩個工具配合干活,那這些單項分數就要打折
零幺給這個方向起了個名字,叫 production research:去觀察真正在生產環境里工作的人是怎么干活的,基于這些真實模式去設計評測和訓練數據
我問:你覺得有哪些 Benchmark 是被低估了嗎?
回答:GAIA2,相比一些其他榜單,GAIA2 可能更接近真實 Agent 場景,允許 Agent 異步執行多個有依賴關系的任務。做這個 benchmark 的團隊據說已經解散了,代碼有 bug 沒人維護。覺得這個方向對,就讓百靈團隊自己把 bug 修了,拿來做內部評估
我當時嘆了聲牛逼...判斷方向是對的,就動手補上缺的東西
聊到 Claude Code 為什么在多工具協同上表現好,零幺幫我分析了 Anthropic 的做法,認為一個重要原因是他們確實在做 production research,收集了大量真實工程師的工作模式來指導訓練
「這個事,靠的說投入和耐心,不單單是聰明」,以及...被嚴重低估的,是「多工具協同」這整個能力維度
松耦合
螞蟻內部,產品團隊和基模團隊的關系是:松耦合
產品團隊提前半年給出未來想要什么能力,基模團隊從中選擇能做且應該做的,兩邊在一個「池子」里找交集,各自保留各自的判斷
我問:如果兩年后螞蟻的模型大獲成功,它能占據的心智可能是什么?
回答到:專業服務業
這也是螞蟻的固有心智:從支付延伸到金融、醫療、生活服務,都是專業服務業,行業門檻高,專業從業者稀缺
普通人享受不到好的金融服務,社區醫生水平有限所以大家都去三甲,搜索引擎查個癥狀小毛病看著像絕癥。AI 如果能降低這些服務的門檻,就是螞蟻做基模的支點
具體是這樣運作的:靈光(螞蟻的 C 端 AI 產品)團隊提前半年做一個 demo 視頻,里面可能有十幾個設想中的功能。百靈團隊看完之后,判斷哪些能做、哪些三個月能出、哪些一年后還做不出來,從中 pick 一些去推進
一個例子:2025 年 2~3 月時,國內所有模型都生成不了好看的 HTML 頁面,只有 Claude 能做到。靈光團隊則評估這個很重要,就放進需求池。百靈在 2.0 版本訓練中就開始強化 HTML 生成。等靈光產品上線時,能力已經準備好了
零幺說:Google 內部也是類似模式,3~6 個月為周期收集產品需求
一年和一年
模型在變小,能力在變強,一年后,一個 200B 的模型,就能打贏今天的 1T
這里可能不是判斷了,我們實際在訓練中的模型就能看到這個趨勢了。類似摩爾定律,對基模目前可能是不到一年,同等能力對應的規模就可能可以壓縮一個數量級
但做 Agent、做應用的團隊等不了這一年
同一個「一年」,對模型廠商是技術迭代的周期,對應用公司是生死存亡的倒計時
千問 3.5 已經在驗證這個趨勢,397B 總參 17B 激活,在不少維度上打贏了上一代萬億參數模型。GLM-5 用 744B 總參 40B 激活拿到了 a16z 所說的「最好的開源模型」
在模型訓練中,零幺跟我講了一個他認為被嚴重低估的問題:過程獎勵
現在主流做法是 Agent 跑完整個任務后,看最終結果給一個獎勵信號。但如果 Agent 連續跑幾個小時,中間幾十上百步操作,最后才給一個「對」或「錯」,信號太稀疏,模型很難從中學到東西
百靈 2.5 在數學證明題上的進步,零幺認為很大程度來自逐步驗證:每一步推導都檢查對錯,整個過程就是結果。這跟 Agent 場景的需求結構一樣:長程執行,中間每一步都需要反饋
同時,他也很坦率地告訴我說,Agent 的過程獎勵怎么做,目前沒有成熟方案。「如果能在這個位置找到更好的想法,整個 Agent 訓練的效率會提一截」。
我發現,在聊到沒解決的問題時,零幺反而說得更細
關于思考模型和即時模型,零幺表示:各家現在優先卷思考模型,因為更能體現 AGI 上限,benchmark 卷得更猛。代價是即時模型被普遍忽視
「你會發現各家現在對應的非思考模型,能力就偏弱了」
長遠看一定會合到一起。但現階段分開做是也是合理的:兩種模型的上限還沒探清楚,合在一起反而會互相拖累
聊到最后,我們還說了件小事:這次百靈 2.5 的官方發布稿,是零幺用百靈 1T 模型寫的
「以前用 xxx 模型寫文檔,會蹦出來一堆很科幻的詞語,每次都要大改。這次用百靈寫,很多直接就可以用了」
我問:覺得百靈 2.5 寫出來的東西,具體好在哪
他想了想說:像一篇正常的文章,而不像一篇玄幻小說了
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.