4 月 22 日,螞蟻百靈正式推出 Ling-2.6-flash —— 一款總參數量 104B、激活參數 7.4B 的 Instruct 模型。該模型主打“Token 效率(Token Efficiency)”,在保持競爭力智能水平的同時,更快、更省以及更適合大規模真實應用。
據權威三方評測Artificial Analysis 數據,Ling-2.6-flash 展現了突出的 Token Efficiency 優勢,以 15M output tokens 實現了 26 分 的 Intelligence Index,在保持較強智能水平的同時,將輸出消耗控制在相對更低的位置。相比部分依賴更長輸出換取更高分數的模型,Ling-2.6-flash 在“智能表現”與“輸出成本”之間取得了更優平衡。
對于開發者和企業場景而言,這種效率優勢意味著更低的推理開銷、更快的首字響應、更短的整體生成時延,以及更流暢的交互體驗,滿足在真實部署環境下對速度、成本與體驗的綜合要求。
![]()
Ling-2.6-flash 沿用了 Ling 2.5 的混合線性架構設計,這種高度稀疏化的 MoE 架構在硬件表現上優勢明顯。在 4 卡 H20 條件下推理速度最快可達到 340 tokens/s,Prefill 吞吐達到 Nemotron-3-Super 的 2.2 倍。在 Output Speed 測評中,Ling-2.6-flash以 215 tokens/s 的穩定輸出速度位列同參數級別模型的第一梯隊。
從 Token 消耗來看,Ling-2.6-flash 的智效比顯著提升。在 Artificial Analysis 完整測評中,Ling-2.6-flash 總消耗為 15M tokens,而 Nemotron-3-Super 等模型達到或超過 110M tokens。這意味著,Ling-2.6-flash 僅用約 1/10 的 token 消耗完成了同類評測任務。
![]()
![]()
Ling-2.6-flash 面向 Agent 場景進行了定向增強,在控制 Token 消耗的前提下,依然保持了極強的任務執行力,模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等Agent 相關基準上達到同尺寸 SOTA 水平。與此同時,Ling-2.6-flash 在通用知識、數學推理、指令遵循及長文本解析等維度保持優秀水準。
![]()
API 定價方面,Ling-2.6-flash 輸入每百萬tokens定價 0.1 美元,輸出 0.3 美元。目前,Ling-2.6-flash 的 API 已正式向用戶開放,并提供為期一周的限時免費試用。用戶可以通過OpenRouter 、百靈大模型 tbox 獲取對應服務。據了解,該模型后續將通過螞蟻數科發布商業版本LingDT,服務全球開發者及中小企業。
一周前,Ling-2.6-flash 的匿名測試版本“Elephant Alpha”上線OpenRouter,上線以來,其調用量持續增長,連續多日位列 Trending 榜首,日均 tokens 調用量達 100B 級別,周增長超5000%。
本文由極果用戶極果原創
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.