網易首頁 > 網易號 > 正文申請入駐

螞蟻 Ling-1T 開源：基礎語言模型、1T參數、MoE架構｜所有信息都在這了

2025-10-09 10:37:17　來源: 賽博禪心

北京舉報

分享至

螞蟻的 Ling-1T 終于發了，大半夜的

中文叫百靈，1T 參數，Instruct 版本、非推理、MoE架構

HuggingFace：https://huggingface.co/inclusionAI/Ling-1T

GitHub：https://github.com/InclusionAI/Ling

在線體驗：ling.tbox.cn（有 API）

對于海外用戶/開發者，還有個神奇的網站

ZenMux：https://zenmux.ai/inclusionai/ling-1t

國慶期間，提前玩了玩，素質ok

說這模型之前，容我先說螞蟻：

這個螞蟻，就是「螞蟻森林」、「支付寶」的那個螞蟻
螞蟻的AI組織，叫 InclusionAI
螞蟻的模型，統稱為百靈大模型，不是阿里的 Qwen
- Ling：語言模型，L 取自 Linguistics
- Ring：思考模型，R 取自 Reasoning
- Ming：多模態模型，M 取自 Multi-modality

理清這些很重要，別搞混了

小聲逼逼

螞蟻下個模型可以叫 King

King 和 Qwen 組 CP

Ling-1T 發布

這款模型，官方定位是「旗艦級非思考模型」，基本信息如下：

1T MoE，51B 激活
128K 上下文
20T+ token 語料預訓練

注意，這里有個關鍵詞：非思考模型

最開始的時候，大家的模型都是「非推理」的

比如原始的 ChatGPT：你提問，模型答，沒有思考

但從去年這時候開始，各家都在卷思考模型（你也可以叫它「推理模型」，就是 Reasoning Model），最早是 OpenAI 的 o1，然后是大火的 DeepSeek-R1...

思考模型是這樣：

給模型更多時間、中間 token，讓他用更長的推理鏈來提升準確率

你問它一道數學題，它會輸出幾千甚至上萬 tokens 的內部思考，然后給你答案

Ling-1T 的目標不一樣：

在有限的輸出 token 下，直接給出高質量的推理結果

看一組來自官方的對比，在 AIME 25，也就是美國 25 年的高中數學競賽中：

Ling-1T：準確率 70.42%，平均推理長度約 4300 tokens
Gemini-2.5-Pro（開 thinking 模式）：準確率 70.10%，平均推理長度約 7000 tokens

準確率差不多，但 Ling-1T 用的 token 少了 40%

對于其他評測，數據如下（圖片來自官方），大致就是：開源第一梯隊

不過...等等，我看了一眼對比圖里的其他模型數據，有點不對勁

比如 GPT-5 的 AIME25 分數，圖里顯示是 60 多分，但我印象里 OpenAI 發布的時候不是說 90+ 嗎？

然后我專門去查了下 OpenAI 的官方發布記錄...

Hhhhh 什么神奇的障眼法

GPT-5 裸出結果（不開思考模式）的前提下

AIME 2025 的官方分數只有 61.9%

月之暗面前段時間發布 K2，也是 1T 參數，我拉來了里面的跑分

...OpenAI 在圖里的分數是 37?

仔細一看，月之暗面選取的是 GPT-4.1

其實吧...一點毛病沒有

雖然現在的 K2，版本號是 0905，GPT-5 已經出來

但 K2-instruct 發布的時候是 7月11日，GPT-5 還沒出

在當時，OpenAI 家當時最強模型，確實是 GPT 4.1

（順道吐槽，GPT的發布順序 4.5->4.1->5）

各家對比的時候，選的參照模型版本都不一樣

但不管怎么說，Ling-1T 在非思考模型里的表現確實不錯

技術實現

有關這個模型的訓練，我來簡單說一下吧

分架構、預訓練和后訓練三塊

架構

Ling-1T 用的是 MoE 架構：

1T 總參數
256 個專家
每次激活約 51B 參數

有個細節：前幾層用的是密集結構（Dense），后面才切換到 MoE。這種設計能在保證基礎能力的同時，通過稀疏激活降低推理成本

至于為什么...說實話，我理解的不夠深

于是問了這個模型的負責人，表示說：

first k dense 的設計，主要是為了降低淺層網絡的負載不均衡；

淺層如果是 moe 的話，專家路由不均衡度會很高

改成前k個dense，后面再接moe，可以緩解這個問題

預訓練

在預訓練中，有三個階段：

1.Pretrain Stage 1（10T token）：高知識密度語料
2.Pretrain Stage 2（10T token）：高推理密度語料，整體推理語料占比超過 40%
3.Mid-training：擴展上下文到 128K，加入思維鏈語料

這里的思路是：從一開始就訓練推理能力

另外，Ling-1T 全程用的是 FP8 精度訓練，這是目前最大規模的 FP8 訓練。相比 BF16，FP8 能省顯存、提升訓練速度，而且在 1T token 的對比實驗中，Loss 偏差只有 0.1%

后訓練

螞蟻提出了 LPO 方法（Linguistics-Unit Policy Optimization），并表示：對于推理任務，句子是更符合語義邏輯的動作單元

不同方法的訓練效果，百靈團隊提供

另外的，對于這些方法，這里做個小的辨析：

GRPO：按 token 優化
GSPO：按整個序列優化
LPO：按句子優化

實測

我得說，這個模型是超出我的預期的，比如我讓他去做一個粒子波浪

當然，還可以再來個宇宙演化史

對于常規任務，比如信息卡片，也不在話下，內容就是他自己

有一說一，美術風格很討喜，個人覺得甚至比 Claude Sonnet 4.5 好

對此，螞蟻的朋友跟我說：

前端之前有專門優化過，也還在持續優化中

而對于 svg 的任務，也ok的，比如我讓他

畫一個 svg 動畫：百靈鳥在盡情歌舞

給到了這個，還是可以的，甚至還有偽 3D

（但微信里面傳不了這么復雜的 svg，這里放個 gif）

我讓 Claude 也畫了個，大概是這樣

百靈鳥在盡情歌舞

但也要控制預期：

指令理解這塊，Ling 比 Claude 還是有差距的

螞蟻的 AI

老實說，很多人可能不知道：螞蟻還在訓模型

從 2023 年開始，螞蟻就確立了「AI First」戰略，悶聲搞事情

從底層，到應用，搞了一整套的完整生態

模型層，有三個系列：

Ling（語言模型）：這次發的 Ling-1T 就是這個系列
Ring（思考模型）：對標 o1、R1 那種，之后會發
Ming（多模態模型）：就像 Ming-lite-omni v1.5，能處理圖像、文檔、視頻、語音
以及...這里還有個實驗版本 LLaDa-MoE，是行業內首個 MoE 的擴散語言模型

框架層，開源了兩個東西：

AWorld：多智能體系統框架，在 GAIA benchmark 上拿了開源項目第一，77.08 分
AReaL：專門為 LLM 推理和 Agent 優化的強化學習框架

應用層，分 C 端和 B 端

C 端有三個AI 管家，都在支付寶里：

AI 健康管家AQ：連接全國近百萬醫生，能找醫生、讀報告、陪看診、問醫保
AI理財管家螞小財：提供行情分析、持倉診斷、資產配置和投教陪伴等個性化金融服務
AI生活管家：能幫你規劃旅游、查快遞、交話費...語音喚起支付寶上的生活服務

B 端也有兩個：

數字螞力：專門成立的公司，做 AI 人機融合的企業服務，涵蓋招聘培訓、客戶服務、技術開發等
百寶箱：智能體開發平臺，商家機構可以 0 代碼、1 分鐘創建專屬智能體，發布到支付寶

在這里，螞蟻的打法有點不一樣：沒卷陪聊、生產力工具，沿著支付寶構建生活應用

這里做了張分享圖，通過 Ling 畫的，挺好看的

最后

在國慶假期的時候，和螞蟻的技術人員也聊了聊，感覺很扎實

螞蟻家的模型，這次是 Instruct 先發，思考模型 Ring 之后也會來

對于即將要發的 Ring，跑分暫時是這樣（還在提升ing）

而 Ling，現在正式發布了，也有 API 能用，感興趣的可以去跑跑看

HuggingFace：https://huggingface.co/inclusionAI/Ling-1T

GitHub：https://github.com/InclusionAI/Ling

在線體驗：ling.tbox.cn（提供 API）

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.