這是蒼何的第 496 篇原創!
大家好,我是蒼何。
其實在早些時候,我就深度參與了豆包大模型2.0 的內測。
今天,終于,豆包大模型 2.0 正式發布了。
說實話,這次的升級幅度,屬實把我整不會了。
先說結論:「豆包 2.0 Pro 全面對標 GPT 5.2 和 Gemini 3 Pro」。
「人類最后的考試」HLE-Text 拿下 54.2 分最高分,ICPC 編程競賽金牌,IMO 數學奧賽也是金牌。
![]()
好家伙,字節這是要掀桌子啊。
豆包 2.0,到底升級了啥
這次發布的是一整個系列,包含 Pro、Lite、Mini 三款通用 Agent 模型,外加一個專門搞代碼的 Code 模型。
簡單來說就是:
「豆包 2.0 Pro」,旗艦款,面向深度推理和長鏈路任務執行。
你可以理解為,它能像一個老練的員工一樣,拆解復雜任務,一步步幫你搞定。
「豆包 2.0 Lite」,性價比之王,綜合能力直接超越上一代主力豆包 1.8,成本還更低。
百萬 tokens 輸入價格才 0.6 元,這價格我服了。
「豆包 2.0 Mini」,專為低時延、高并發場景設計,適合需要快速響應的應用。
「豆包 2.0 Code」,基于 2.0 Pro 底座,專門針對編程做了深度優化。
不僅強化了代碼庫解讀能力,還提升了應用生成能力,關鍵是增強了 Agent 工作流中的糾錯能力。
講真的,這個 Code 模型有個很牛的點:它自帶視覺理解能力(VLM),是原生支持的,不是通過工具調用實現的。
后面我們也會放一個實測的復雜 case。
多模態能力,真的炸了
除了文本能力拉滿,豆包 2.0 的多模態能力也全面升級了。
視覺推理、空間理解、長上下文理解,全面達到世界頂尖水平。
Pro 版本在大多數相關基準測試中直接拿了最高分。
![]()
特別是長視頻理解這塊,豆包 2.0 在大多評測上超越了其他頂尖模型。
它能做實時視頻流分析、環境感知,甚至還能做主動糾錯和情感陪伴。
這意味著什么?意味著它不僅能「看懂」視頻,還能基于理解做出判斷和反饋。
后面我會用實際 case 展示這個能力到底有多強。
目前,豆包 2.0 Pro 已經在豆包 App、電腦端和網頁版上線了,選擇「專家」模式就能體驗。Code 模型則接入了字節的 AI 編程產品 TRAE。
實測一:AI 象棋教練,教我兒子下象棋
光看數據沒意思,直接上手測。
第一個 case,我用豆包 2.0 做了一個「AI 象棋教練」。
起因是我家小朋友最近迷上了下象棋,但他水平嘛,怎么說呢,就是那種炮還沒過河就開始送的水平。
我想著能不能讓 AI 來輔導他?
于是我利用豆包 2.0 Pro 的視覺理解能力(VLM),做了這么一個東西:
拿手機拍一張當前棋盤的照片,直接丟給豆包 2.0,它能識別出棋盤上每個棋子的位置,然后告訴你下一步該怎么走。
整個我是在 Trae 中使用的 Doubao-Seed-2.0-Code
![]()
做出的效果我錄了一個視頻,大家可以感受一下。
你沒聽錯,它真的能「看懂」象棋棋盤。
不僅能識別出紅方黑方各有哪些子,還能分析當前局勢,給出具體走法建議。
甚至會告訴你為什么要這么走。
比如它會說:「當前紅方車在 e1 位置,建議走車到 e7 吃掉黑方的卒,同時形成對黑方將的威脅。」
說實話,識別準確率比我預期的高很多。
一些比較復雜的殘局,它也能給出靠譜的建議。
當然偶爾也會有小錯誤,但當一個入門級的象棋教練完全夠用。
我兒子現在下棋之前都要先問一句:「爸爸,讓 AI 看看我該走哪。」
麻了,這小子對 AI 的信任度比對我還高。
這個 case 主要體現的是豆包 2.0 的 VLM 能力,也就是視覺語言模型的能力。它能準確理解圖片中的復雜信息,并給出有邏輯的分析和建議。
實測二:AI 視頻混剪,精彩片段自動剪輯
第二個 case 更硬核,我用豆包 2.0 做了一個視頻智能混剪的 Agent。
這個就更能體現豆包 2.0 的長視頻理解能力和 Agent 長上下文能力了。
場景是這樣的:你有一個幾十分鐘甚至幾小時的長視頻素材。
比如一場比賽、一次直播回放或者一部紀錄片,你想從中找出最精彩的片段做一個混剪。
以前怎么做?你得自己一幀一幀看,手動打點,費時費力。
現在用豆包 2.0,直接把視頻丟給它,讓它幫你分析。
它能理解整個視頻的內容和節奏,自動識別出高潮片段、精彩瞬間、情感轉折點。
然后幫你把這些片段提取出來,按邏輯組合成一個混剪視頻。
整個過程就是一個 Agent 工作流:
先讓模型理解整個長視頻的內容
分析出哪些片段是精彩的、有看點的
按照時間軸標記出這些片段的起止時間
最后調用剪輯工具完成混剪
這里面最難的其實是第一步和第二步。
要理解一個幾十分鐘的視頻,模型需要有強大的長上下文處理能力。
而且它不是簡單地識別畫面,還要理解情節發展、情緒變化、節奏快慢。
豆包 2.0 在這方面表現得相當不錯。
它確實能抓住視頻中那些讓人「眼前一亮」的瞬間,而不是隨便給你截幾個畫面。
比如我把長達 2 小時之前羅永浩和豆包對話的視頻進行了混剪。
![]()
它先理解視頻,分析哪些是亮點:
![]()
然后提取所有豆包相關精華片段。
![]()
最后自主調用相關工具進行剪輯:
![]()
然后調用工具進行拼接:
![]()
最終的做出的效果如下:
在整個 Agent 工作流中,如果中間某個步驟出了問題,它還能自動糾錯。
重新調整方案繼續執行,不用你手動干預。
這個糾錯能力,說實話是我在其他模型上很少看到的。
實測三,長視頻轉公眾號文章
同樣是剛才那個視頻,我讓豆包理解后,然后幫我輸出成一篇公眾號文章。
![]()
這是我給的 prompt:
請分析這個視頻,重點關注羅永浩和豆包的互動內容,提取精彩對話和互動細節。同時分析豆包展示的AI能力和背后的技術特點,包括但不限于自然語言處理、多模態交互、知識問答、邏輯推理等方面。請以結構化的方式輸出結果,分為'羅永浩與豆包的精彩互動'和'豆包的AI能力與技術分析'兩大部分。可以看到它能自行調用工具及技能,先對視頻解析理解,然后按照要求輸出文章。
![]()
這是最終的結果,完全符合提示詞的要求。
![]()
整體體驗下來,豆包 2.0 給我的感覺就是兩個字:全面。
文本推理拉滿,多模態理解拉滿,Agent 能力拉滿,關鍵價格還很有誠意。
價格方面,豆包 2.0 Pro 的定價也很有誠意。32k 以內輸入只要 3.2 元/百萬 tokens,輸出 16 元/百萬 tokens。對比 GPT 5.2 和 Gemini 3 Pro,便宜了差不多一個數量級。字節這波,明顯是想用性價比把市場打穿。
字節在大模型這塊,確實是憋了一個大招。
這次 2.0 的發布,更像是一個從「量變到質變」的節點。
不管你是開發者想接 API 做應用,還是普通用戶想體驗最新的 AI 能力,都推薦去試試。
豆包 App 里選「專家」模式就是 2.0 Pro,搞代碼的可以去 TRAE 里體驗 Code 模型。
好了,今天就聊到這兒。
如果你也體驗了豆包 2.0,歡迎在評論區聊聊你的感受,或者你還想讓我測試什么場景,也可以留言告訴我。
我是蒼何,我們下篇見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.