今天 Seed2.0 全系列正式發布
Seed2.0,也就是豆包大模型2.0(Doubao-Seed-2.0)
包括 Pro、Lite、Mini 三款通用 Agent 模型加一個 Code 模型,圍繞 Agent 使用和大規模生產,做了系統性優化
先看數據(本文里所有表格,都是我做的,好不好看!!!)
![]()
Seed2.0 核心評測數據總覽|vs GPT-5.2 · Claude Opus-4.5 · Gemini-3 Pro
先一次過完核心部份:
多模態,數學與視覺推理 19 項基準 12 項第一,視覺感知、文檔理解、長上下文大部分基準 SOTA,EgoTempo 超過人類分數
LLM 科學能力,HealthBench 第一,SuperGPQA 超 GPT-5.2,整體與 Gemini 3 Pro、GPT-5.2 相當;在深度研究上也取得了不俗的成績
代碼,有明顯進步,部分高難基準與國際領先模型仍有差距
已上線,豆包 App 選「專家」模式 / TRAE 選「Doubao-Seed-2.0-Code」,全系列 API 已上線火山引擎,價格較同級 GPT 和 Claude 便宜一個數量級
![]()
Model Card 也有,同時發布的還有一份 79 頁的 Model Card,公眾號后臺回復「Seed2.0」,獲取這份 Model Card
![]()
先說定價
Seed2.0 全系列的這四款模型,API 已上線火山引擎。以下為分段計費中 ≤32k 輸入的價格,單位元/百萬 tokens,這里我也做了個對比圖:
![]()
價格對比(人民幣計價)
Pro(doubao-seed-2-0-pro-260215)旗艦全能,面向復雜推理與長鏈路 Agent 任務
輸入 3.2 / 輸出 16 / 緩存命中 0.64
Lite(doubao-seed-2-0-lite-260215)均衡型,綜合能力超 Seed1.8,兼顧質量與速度
輸入 0.6 / 輸出 3.6 / 緩存命中 0.12
Mini(doubao-seed-2-0-mini-260215)低時延高并發,256k 上下文,4 檔思考長度
輸入 0.2 / 輸出 2 / 緩存命中 0.04
Code(doubao-seed-2-0-code-preview-260215)編程加強版,適配 Claude Code 等 IDE 工具鏈
輸入 3.2 / 輸出 16 / 緩存命中 0.64
四款模型均支持文字、圖片、視頻輸入,文字輸出
token 定價,比海外模型低了約一個數量級。Agent 跑一次 workflow 消耗的 token 是人類對話的幾十倍
在現實世界的復雜任務中,大規模推理與長鏈路生成將消耗大量 token,這個成本變量會越來越重
![]()
火山引擎模型詳情頁:https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-0-pro
本次的優化
Seed 團隊分析了通用模型在 MaaS 服務中的真實調用情況
![]()
MaaS 調用場景分布
Seed 通用模型 MaaS 服務在中國大陸的調用場景分布,數據來自「火山方舟協作獎勵計劃」
最高比例的需求是處理混雜圖表、文檔等非結構化信息的知識內容。企業端的典型模式:先讓模型做「讀得多、想得多」的任務,再進入復雜且專業的流程型工作
基于這個真實需求,Seed2.0 重點優化三個方向:
?更穩健的視覺與多模態理解:復雜文檔、表格、圖形、視頻內容的解析能力顯著提升
?更可靠的復雜指令執行:多約束、多步驟、長鏈路任務的理解與執行能力強化
?更靈活的推理選擇:Pro、Lite、Mini 三檔加 Code 模型,覆蓋不同場景
除了生產級需求,Seed2.0 還在推高模型智能上限。目前已經能從解決奧林匹克競賽類問題邁向支持研究級推理,比如嘗試探索埃爾德什級別的數學問題,也可以完成部分科學相關任務的編程工作
能解埃爾德什問題和能幫你整理一堆掃描版合同,是兩種能力
Seed2.0 兩個都在做
多模態理解:大部分基準 SOTA 數學與視覺推理
Seed2.0 Pro 在 MathVista、MathVision、MathKangaroo、MathCanvas 等數學推理基準上達到業界最優水平。LogicVista、VisuLogic 等視覺解謎與邏輯推理基準上,較 Seed1.8 顯著提升
![]()
數學與視覺推理評測數據
標注 * 的數據引自公開技術報告
視覺感知
VLMsAreBiased、VLMsAreBlind、BabyVision 等基準中取得業界最高分。面對不同類型的視覺輸入時仍能保持準確且可信的感知和判斷能力
![]()
視覺感知與通用 VQA 評測數據
標注 * 的數據引自公開技術報告
文檔理解與長上下文
模型面對的,往往是復雜版式混排的原始材料。相比 Seed1.8,處理非結構化信息的能力顯著強化,ChartQAPro 與 OmniDocBench 1.5 達到頂尖水準
長上下文方面,DUDE、MMLongBench、MMLongBench-Doc 均取得業界最佳分數
![]()
文檔理解與長上下文評測數據
標注 * 的數據引自公開技術報告
視頻理解
時間序列與運動感知方面,TVBench、TempCompass、MotionBench 等關鍵測評處于領先位置
EgoTempo 超過人類分數(人類 63.2,Seed2.0 Pro 71.8),對「變化、動作、節奏」的捕捉更為穩定
長視頻場景中,Seed2.0 在大部分評測上超越了其他頂尖模型,可以高效準確地處理小時級別的長視頻。視頻工具 VideoCut 進一步提高了長視頻處理的時長范圍和推理精度
流式實時視頻方面同樣表現優異,能完成實時視頻流分析、環境感知、主動糾錯與情感陪伴,可應用于健身、穿搭等場景
![]()
視頻理解評測數據
標注 * 的數據引自公開技術報告
LLM 與 Agent:真實長程任務執行能力提升
Seed 團隊觀察到一個典型失衡:模型已經可以順利解決競賽難題,但放在真實世界中,依然很難端到端地完成實際任務,比如一次性構建一個設計精良、功能完整的小程序
原因來自兩點。真實世界任務跨越更長時間尺度、包含多個階段,現有 LLM Agent 難以自主構建高效工作流。真實世界知識具有很強的領域壁壘且呈長尾分布,各行業的經驗不在訓練語料的高頻區
長尾領域知識
Seed2.0 通過系統性加強長尾領域知識來應對
SuperGPQA 超過 GPT-5.2,HealthBench 第一名,科學領域整體成績與 Gemini 3 Pro 和 GPT-5.2 相當。FrontierSci 等 STEM 基準表現突出,部分場景得分超過 Gemini 3 Pro
![]()
LLM 科學能力評測數據 指令遵循
Seed2.0 保持較強的一致性與可控性,為 Agent 模型在長鏈路、多步驟任務中嚴格按約束條件執行奠定了基礎
![]()
指令遵循評測數據 深度研究
Seed2.0 在長鏈路任務中表現突出,尤其擅長連續完成「找資料、做歸納、寫結論」這類連續工作流
三項深度研究評測,Pro 和 Lite 都取得了不俗的成績
![]()
深度研究評測數據 真實世界任務
在具備直接經濟價值的現實任務評測中,Seed2.0 在客服問答、信息抽取、意圖識別、中小學階段問題解答等高頻場景上表現穩定。GDPVal-Diamond、XPert Bench 等復雜專業任務基準上同樣取得有競爭力的結果
![]()
真實世界任務評測數據 科學發現
FrontierSci-research 等前沿科研基準上表現強勁,AInstein Bench 領先,體現出在科學發現場景中較強的假設驅動式推理能力
![]()
科學發現評測數據 從研究想法到實驗方案
Seed2.0 還能把「研究想法」推進到「形成可落地的實驗方案」
以高爾基體蛋白分析為例,模型把基因工程、小鼠模型構建、亞細胞分離與多組學分析串成一條完整流程,細化到關鍵環節怎么做、用什么做對照排除污染、用哪些指標評估純度
相關領域專家的反饋:方案在跨學科的實驗細節與步驟化表達上超出預期,能產出結構清晰、科學上相對可靠、具有可執行性的實驗草案
![]()
高爾基體蛋白分析實驗方案示例 代碼:有進步,有差距
端到端整體代碼生成、上下文學習方面取得了明顯進步
![]()
Vibe Coding 及上下文評測數據
部分高難基準上,與國際領先模型相比仍有提升空間
最后
除了火山 API 之外,Seed2.0 Pro 和 Code 還已分別上線:
? 豆包 App:選擇「專家」模式,開啟對話
? TRAE:在「內置模型」中選擇「Doubao-Seed-2.0-Code」
以及,火山的這個模型,也已上線方舟 Coding Plan,且首月低至 8.91 元
新春限時特惠 ?? 二月特別補貼
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.