螞蟻的 Ling-1T 終于發了,大半夜的
中文叫百靈,1T 參數,Instruct 版本、非推理、MoE架構
![]()
HuggingFace:https://huggingface.co/inclusionAI/Ling-1T
GitHub:https://github.com/InclusionAI/Ling
![]()
在線體驗:ling.tbox.cn(有 API)
對于海外用戶/開發者,還有個神奇的網站
ZenMux:https://zenmux.ai/inclusionai/ling-1t
![]()
國慶期間,提前玩了玩,素質ok
說這模型之前,容我先說螞蟻:
- 這個螞蟻,就是「螞蟻森林」、「支付寶」的那個螞蟻
- 螞蟻的AI組織,叫 InclusionAI
- 螞蟻的模型,統稱為百靈大模型,不是阿里的 Qwen
- Ling:語言模型,L 取自 Linguistics
- Ring:思考模型,R 取自 Reasoning
- Ming:多模態模型,M 取自 Multi-modality
理清這些很重要,別搞混了
小聲逼逼
螞蟻下個模型可以叫 King
King 和 Qwen 組 CP
Ling-1T 發布
這款模型,官方定位是「旗艦級非思考模型」,基本信息如下:
- 1T MoE,51B 激活
- 128K 上下文
- 20T+ token 語料預訓練
注意,這里有個關鍵詞:非思考模型
最開始的時候,大家的模型都是「非推理」的
比如原始的 ChatGPT:你提問,模型答,沒有思考
但從去年這時候開始,各家都在卷思考模型(你也可以叫它「推理模型」,就是 Reasoning Model),最早是 OpenAI 的 o1,然后是大火的 DeepSeek-R1...
![]()
思考模型是這樣:
給模型更多時間、中間 token,讓他用更長的推理鏈來提升準確率
你問它一道數學題,它會輸出幾千甚至上萬 tokens 的內部思考,然后給你答案
Ling-1T 的目標不一樣:
在有限的輸出 token 下,直接給出高質量的推理結果
看一組來自官方的對比,在 AIME 25,也就是美國 25 年的高中數學競賽中:
- Ling-1T:準確率 70.42%,平均推理長度約 4300 tokens
- Gemini-2.5-Pro(開 thinking 模式):準確率 70.10%,平均推理長度約 7000 tokens
準確率差不多,但 Ling-1T 用的 token 少了 40%
![]()
對于其他評測,數據如下(圖片來自官方),大致就是:開源第一梯隊
![]()
![]()
不過...等等,我看了一眼對比圖里的其他模型數據,有點不對勁
比如 GPT-5 的 AIME25 分數,圖里顯示是 60 多分,但我印象里 OpenAI 發布的時候不是說 90+ 嗎?
然后我專門去查了下 OpenAI 的官方發布記錄...
![]()
Hhhhh 什么神奇的障眼法
GPT-5 裸出結果(不開思考模式)的前提下
AIME 2025 的官方分數只有 61.9%
月之暗面前段時間發布 K2,也是 1T 參數,我拉來了里面的跑分
...OpenAI 在圖里的分數是 37?
![]()
仔細一看,月之暗面選取的是 GPT-4.1
其實吧...一點毛病沒有
雖然現在的 K2,版本號是 0905,GPT-5 已經出來
但 K2-instruct 發布的時候是 7月11日,GPT-5 還沒出
在當時,OpenAI 家當時最強模型,確實是 GPT 4.1
![]()
(順道吐槽,GPT的發布順序 4.5->4.1->5)
各家對比的時候,選的參照模型版本都不一樣
但不管怎么說,Ling-1T 在非思考模型里的表現確實不錯
技術實現
有關這個模型的訓練,我來簡單說一下吧
分架構、預訓練和后訓練三塊
![]()
架構
Ling-1T 用的是 MoE 架構:
- 1T 總參數
- 256 個專家
- 每次激活約 51B 參數
有個細節:前幾層用的是密集結構(Dense),后面才切換到 MoE。這種設計能在保證基礎能力的同時,通過稀疏激活降低推理成本
至于為什么...說實話,我理解的不夠深
于是問了這個模型的負責人,表示說:
first k dense 的設計,主要是為了降低淺層網絡的負載不均衡;
淺層如果是 moe 的話,專家路由不均衡度會很高
改成前k個dense,后面再接moe,可以緩解這個問題
預訓練
在預訓練中,有三個階段:
- 1.Pretrain Stage 1(10T token):高知識密度語料
- 2.Pretrain Stage 2(10T token):高推理密度語料,整體推理語料占比超過 40%
- 3.Mid-training:擴展上下文到 128K,加入思維鏈語料
這里的思路是:從一開始就訓練推理能力
另外,Ling-1T 全程用的是 FP8 精度訓練,這是目前最大規模的 FP8 訓練。相比 BF16,FP8 能省顯存、提升訓練速度,而且在 1T token 的對比實驗中,Loss 偏差只有 0.1%
后訓練
螞蟻提出了 LPO 方法(Linguistics-Unit Policy Optimization),并表示:對于推理任務,句子是更符合語義邏輯的動作單元
![]()
不同方法的訓練效果,百靈團隊提供
另外的,對于這些方法,這里做個小的辨析:
- GRPO:按 token 優化
- GSPO:按整個序列優化
- LPO:按句子優化
實測
我得說,這個模型是超出我的預期的,比如我讓他去做一個粒子波浪
當然,還可以再來個宇宙演化史
對于常規任務,比如信息卡片,也不在話下,內容就是他自己
![]()
有一說一,美術風格很討喜,個人覺得甚至比 Claude Sonnet 4.5 好
對此,螞蟻的朋友跟我說:
前端之前有專門優化過,也還在持續優化中
而對于 svg 的任務,也ok的,比如我讓他
畫一個 svg 動畫:百靈鳥在盡情歌舞
給到了這個,還是可以的,甚至還有偽 3D
(但微信里面傳不了這么復雜的 svg,這里放個 gif)

我讓 Claude 也畫了個,大概是這樣
百靈鳥在盡情歌舞
但也要控制預期:
指令理解這塊,Ling 比 Claude 還是有差距的
螞蟻的 AI
老實說,很多人可能不知道:螞蟻還在訓模型
從 2023 年開始,螞蟻就確立了「AI First」戰略,悶聲搞事情
從底層,到應用,搞了一整套的完整生態
模型層,有三個系列:
- Ling(語言模型):這次發的 Ling-1T 就是這個系列
- Ring(思考模型):對標 o1、R1 那種,之后會發
- Ming(多模態模型):就像 Ming-lite-omni v1.5,能處理圖像、文檔、視頻、語音
- 以及...這里還有個實驗版本 LLaDa-MoE,是行業內首個 MoE 的擴散語言模型
框架層,開源了兩個東西:
- AWorld:多智能體系統框架,在 GAIA benchmark 上拿了開源項目第一,77.08 分
- AReaL:專門為 LLM 推理和 Agent 優化的強化學習框架
應用層,分 C 端和 B 端
C 端有三個AI 管家,都在支付寶里:
- AI 健康管家AQ:連接全國近百萬醫生,能找醫生、讀報告、陪看診、問醫保
- AI理財管家螞小財:提供行情分析、持倉診斷、資產配置和投教陪伴等個性化金融服務
- AI生活管家:能幫你規劃旅游、查快遞、交話費...語音喚起支付寶上的生活服務
B 端也有兩個:
- 數字螞力:專門成立的公司,做 AI 人機融合的企業服務,涵蓋招聘培訓、客戶服務、技術開發等
- 百寶箱:智能體開發平臺,商家機構可以 0 代碼、1 分鐘創建專屬智能體,發布到支付寶
在這里,螞蟻的打法有點不一樣:沒卷陪聊、生產力工具,沿著支付寶構建生活應用
這里做了張分享圖,通過 Ling 畫的,挺好看的
![]()
最后
在國慶假期的時候,和螞蟻的技術人員也聊了聊,感覺很扎實
螞蟻家的模型,這次是 Instruct 先發,思考模型 Ring 之后也會來
對于即將要發的 Ring,跑分暫時是這樣(還在提升ing)
![]()
而 Ling,現在正式發布了,也有 API 能用,感興趣的可以去跑跑看
HuggingFace:https://huggingface.co/inclusionAI/Ling-1T
GitHub:https://github.com/InclusionAI/Ling
在線體驗:ling.tbox.cn(提供 API)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.