網易首頁 > 網易號 > 正文申請入駐

Ling-2.6-flash 正式發布：104B 參數，主打 Token 效率，更快、更省、更落地

2026-04-22 15:07:12　來源: 極果酷玩

北京舉報

分享至

4 月 22 日，螞蟻百靈正式推出 Ling-2.6-flash —— 一款總參數量 104B、激活參數 7.4B 的 Instruct 模型。該模型主打“Token 效率（Token Efficiency）”，在保持競爭力智能水平的同時，更快、更省以及更適合大規模真實應用。

據權威三方評測Artificial Analysis 數據，Ling-2.6-flash 展現了突出的 Token Efficiency 優勢，以 15M output tokens 實現了 26 分的 Intelligence Index，在保持較強智能水平的同時，將輸出消耗控制在相對更低的位置。相比部分依賴更長輸出換取更高分數的模型，Ling-2.6-flash 在“智能表現”與“輸出成本”之間取得了更優平衡。

對于開發者和企業場景而言，這種效率優勢意味著更低的推理開銷、更快的首字響應、更短的整體生成時延，以及更流暢的交互體驗，滿足在真實部署環境下對速度、成本與體驗的綜合要求。

Ling-2.6-flash 沿用了 Ling 2.5 的混合線性架構設計，這種高度稀疏化的 MoE 架構在硬件表現上優勢明顯。在 4 卡 H20 條件下推理速度最快可達到 340 tokens/s，Prefill 吞吐達到 Nemotron-3-Super 的 2.2 倍。在 Output Speed 測評中，Ling-2.6-flash以 215 tokens/s 的穩定輸出速度位列同參數級別模型的第一梯隊。

從 Token 消耗來看，Ling-2.6-flash 的智效比顯著提升。在 Artificial Analysis 完整測評中，Ling-2.6-flash 總消耗為 15M tokens，而 Nemotron-3-Super 等模型達到或超過 110M tokens。這意味著，Ling-2.6-flash 僅用約 1/10 的 token 消耗完成了同類評測任務。

Ling-2.6-flash 面向 Agent 場景進行了定向增強，在控制 Token 消耗的前提下，依然保持了極強的任務執行力，模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等Agent 相關基準上達到同尺寸 SOTA 水平。與此同時，Ling-2.6-flash 在通用知識、數學推理、指令遵循及長文本解析等維度保持優秀水準。

API 定價方面，Ling-2.6-flash 輸入每百萬tokens定價 0.1 美元，輸出 0.3 美元。目前，Ling-2.6-flash 的 API 已正式向用戶開放，并提供為期一周的限時免費試用。用戶可以通過OpenRouter 、百靈大模型 tbox 獲取對應服務。據了解，該模型后續將通過螞蟻數科發布商業版本LingDT，服務全球開發者及中小企業。

一周前，Ling-2.6-flash 的匿名測試版本“Elephant Alpha”上線OpenRouter，上線以來，其調用量持續增長，連續多日位列 Trending 榜首，日均 tokens 調用量達 100B 級別，周增長超5000%。

本文由極果用戶極果原創

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.