網易首頁 > 網易號 > 正文申請入駐

字節豆包2.0發布：推理成本降一個數量級，正面對標GPT-5和Gemini 3

2026-02-14 17:29:39　來源: 華爾街見聞官方

上海舉報

分享至

字節跳動旗下豆包大模型正式進入2.0階段，推出面向Agent時代的系統性升級版本。新版本在保持與GPT-5.2和Gemini 3 Pro相當性能的同時，將推理成本降低約一個數量級，為大規模生產環境下的復雜任務執行提供更具競爭力的解決方案。

2月14日，字節跳動宣布，豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和專門的Code模型。其中旗艦版豆包2.0 Pro全面對標GPT-5.2與Gemini 3 Pro，在多數視覺理解基準測試中達到業界最高水平，并在數學奧賽IMO、CMO和編程競賽ICPC中獲得金牌成績。

該系列模型已全面上線。豆包2.0 Pro已接入豆包App、電腦端和網頁版的"專家"模式，Code版本已集成至AI編程產品TRAE，火山引擎同步上線面向企業和開發者的API服務。

分析認為，在現實世界復雜任務中，由于大規模推理與長鏈路生成將消耗大量token，豆包2.0的成本優勢將成為關鍵競爭力。這標志著字節跳動在大模型商業化應用上邁出重要一步。

多模態能力達到世界頂尖水平

豆包2.0全面升級了多模態能力，在視覺推理、感知能力、空間推理與長上下文理解等任務上表現突出。

動態場景理解方面，該模型在TVBench等關鍵測評中處于領先位置，在EgoTempo基準上甚至超過人類分數，顯示其對變化、動作、節奏等信息的捕捉更為穩定。

長視頻場景中，豆包2.0在大多數評測上超越其他頂尖模型，并在多個流式實時問答視頻基準測試中表現優異。

這使其能夠作為AI助手完成實時視頻流分析、環境感知、主動糾錯與情感陪伴，實現從被動問答到主動指導的交互升級，可應用于健身、穿搭等陪伴場景。

推理能力對標頂尖模型，成本優勢顯著

豆包2.0 Pro通過加強長尾領域知識，在SuperGPQA上分數超過GPT-5.2，并在HealthBench上獲得第一名，在科學領域的整體成績與Gemini 3 Pro和GPT-5.2相當。

在推理和Agent能力評測中，該模型在IMO、CMO數學奧賽和ICPC編程競賽中獲得金牌成績，也超越了Gemini 3 Pro在Putnam Bench上的表現。

在HLE-text（人類的最后考試）上，豆包2.0 Pro取得最高分54.2分，在工具調用和指令遵循測試中也有出色表現。

更重要的是，字節跳動表示，該模型在保持與業界頂尖大模型相當效果的同時，token定價降低了約一個數量級，這一成本優勢在大規模推理與長鏈路生成場景中將變得更為關鍵。

基于OpenClaw框架和豆包2.0 Pro模型，字節跳動在飛書上構建了智能客服Agent。

該Agent能通過調用不同技能完成客戶對話，遇到難題時會主動拉群求助真人同事，幫客戶預約上門維修人員，并在維修后主動回訪和推薦產品。

Code模型提升開發效率

豆包2.0 Code基于2.0基座模型針對編程場景進行優化，強化了代碼庫解讀能力和應用生成能力，并增強了模型在Agent工作流中的糾錯能力。該模型已上線TRAE中國版作為內置模型，支持圖片理解和推理。

在實際應用中，開發者使用TRAE配合豆包2.0 Code，僅需1輪提示詞就能構建出"TRAE春節小鎮·馬年廟會"互動項目的基本架構和場景，經過5輪提示詞即可完成整個作品。

該項目包含11位由大語言模型驅動的NPC，能根據人設自然聊天、招呼顧客、現場砍價，AI游客也會自主決定去哪家攤位、買什么、說什么。相關提示詞與素材已在GitHub開源供開發者測試。

目前，豆包2.0 Pro已面向C端用戶在豆包App、電腦端和網頁版上線“專家”模式；面向企業和開發者，火山引擎已同步上線豆包2.0系列模型API服務。

字節跳動表示，未來將繼續面向真實場景迭代模型，探索智能上限。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.