![]()
作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com
價格只有Gemini 3 pro的1/4、多模態理解和推理能力頂級、從底層支撐了現象級Seedance2.0大殺四方的大一統基座模型豆包2.0,終于來了。
這是最近最被期待的模型之一。即便這個春節的AI圈如此熱鬧,你也不得不承認,目前字節跳動成功搶走了絕大部分注意力。
先是Seedance2.0的驚艷亮相——各個社交網絡上都是它制作的驚人的視頻,被形容為“殺死比賽”和結束AIGC童年期,并且被很多人用來與去年DeepSeek效應對比;再是媲美Nano Banana,在理解和推理上有很大進步的Seedream模型;然后就是剛剛,為前兩個模型提供了底層智能基礎的基座模型豆包2.0最終亮相。
這次豆包大模型2.0系列(Doubao-Seed-2.0)提供了多個模型選擇:包含 Pro、Lite、Mini 三款多模態通用模型,以及面向開發者的 Code 模型(Doubao-Seed-2.0-Code),以滿足不同場景下企業和用戶對延遲和成本的不同需求。
至此,字節整個豆包大模型家族到齊。三連擊,注意力拉滿。
其實圍繞模型的刷屏,以前在DeepSeek,Kimi 和千問身上都看到過,但這一次發生在豆包系列“三連擊”身上的“刷屏”還是有挺大的的不同:
它自己沒怎么強調、外界也還沒怎么討論它的“榜單”排名,但人們第一時間就這么用起來甚至是瘋狂地玩了起來。在即夢里,在剪映里,在豆包里,在火山引擎的api里,在各種社交網絡里。
模型被廣泛討論,而且是以一種真正被大家用起來的方式流行起來,讓人不再太關注什么模型指標,參數,網狀評分圖,甚至Seedance 2.0都快讓你不需在意什么專業提示詞這些東西了——這才是這次“殺瘋了”的豆包模型系列最不一樣也最值得關注的地方。
1
一心要解決真實世界問題的豆包模型
仔細看看這次發布的幾款模型以及研究字節在模型上一貫的策略和思路,能更好理解這種不同。
最為驚艷的Seedance2.0,此次最核心的幾個特點包括對物理規律理解,對復雜指令的跟隨,更真實的音效與視頻的配合,以及對復雜運鏡和特效的把握,這些都是專業以及普通人們的影視和視頻創作里最真實的需求。
在諸多的使用里,你會發現大家在表達一個感受:Seedance2.0吸引人的不只是模型能力,還有它的交互和使用的順滑。讓人感覺已經把產品交互的需求“訓”到了模型層面。除了討論模型,用戶會覺得它是一個完善的為真實需求服務的agent,一個用戶需求滿足的很好的產品。
而豆包這個基座模型,解決的也全是真實世界的難題。
從最初幾款模型瞄準的更廣泛而基本的問題,到今天的復雜系統問題。字節通過用火山引擎,豆包App等與豆包的徹底連通,來讓真實的用戶和使用者的需求直接一桿子捅到底,影響基礎模型訓練的方向和標準。
這都體現在了豆包2.0的更新里。
它的VLM提升了視覺與多模態理解能力,特意為那些最容易產生幻覺的場景做優化,同時它提升了復雜指令執行能力,對“記憶”的理解開始更加真實,讓模型在復雜真實任務里更依賴實時判斷的推理邏輯而非死記硬背。此外,它增強了搜索能力、讓知識更強,此次也同時發布了專為coding場景服務的分支模型。
而且,在豆包2.0背后,字節再次強調了它自己的一整套基于真實世界任務構建的內部評估,它是完成端到端任務的關鍵。據硅星人了解,字節還為這些看起來很“普通”的工作分配了充足的算力資源。
這種“務實”并不意味著模型不再涌現新能力。
在我們看到的一份預覽報告里,豆包2.0在處理一個真實的復雜代碼生成任務時,它的解決方案策略不同于評測基準的官方參考實現。這雖然沒有被字節形容為DeepSeek論文里那種“aha moment”,但也有了這個意味。因為這背后模型不再僅僅是針對已知解決方案做模式匹配,而是表現出在復雜計算領域進行嚴格問題求解的能力。這才是推理能力投射到真實世界任務后該有的作用。
豆包作為字節唯一的基座模型,選擇了大一統的多模態原生框架,也就是所有模態都從一開始就訓在一起,推理能力agent能力也都是原生支持多模態的。這樣的基礎能力正是Seedance這些“垂直”模型給人驚艷體驗的根本。
在基于視覺的推理能力上,豆包2.0展示了對GUI操作界面的很強的理解和推理,甚至是進一步增強了的實時反思能力,這些都是做一個好的agent的基礎。
一個例子是freeCAD任務。CAD軟件其實是個非常高噪音的圖形操作環境,在其中進行語義 GUI 理解,需要通過視覺理解環境,然后通過反思、退出甚至循環的方式分析反饋,自我診斷,從錯誤里學習,最終自己學會一種“在環境里學習”的能力。
此前同樣讓人眼前一亮的豆包手機背后,也是這樣的模型能力提供支撐。
而這些能力會進一步提供給Seedance和Seedream這樣的模型。
在Seedance2.0這次亮眼的能力中,就有一個很有代表性的細節。我用它花了不到10分鐘做了一個風格遷移的動畫片,你可以看到它的“參考”能力,已經進入了風格的層面,這是單純的視頻模態的模型無法具備的,它來自于豆包2.0這個基座模型,來自于一個把所有能力和所有模態進行大一統訓練的強大底層模型。
(我做了一個阿凡提動畫片風格,瑞克和莫蒂主演的“杭州宣傳片”)
1
字節自己的Gemini3時刻
豆包2.0這次的整體更新非常值得仔細品味。
根據字節內部透露,它非常重視在一些基礎科學里的任務表現,比如一些數學猜想、廣義相對論和量子編譯器調試以及計算化學的各種任務。
這樣的偏好說明字節嘗試讓它繼續打好通用能力的基礎,考察和訓練的一大重點,都是理解抽象科學概念、主動發現并修復真實漏洞的能力。
所以,如果用人們習慣的“屠榜”視角去看,豆包系列有個很大不同,它其實沒有去卷最驚艷的那些塔尖上的任務,它花了大量精力去尋找多模態橫向增加智能維度,與更靠譜的處理最廣泛基礎需求的能力之間的微妙平衡。而這無疑是挺考驗耐心和節奏的把握的。
這背后也有“只有字節能這么做”的理由,那就是豆包app。
豆包已經是個國民級產品,所以當它背后的模型更新時,意味著大量天天用豆包的活躍用戶的一個離不開的產品的更新,那么它當然要提高最廣泛最基礎的任務的完成度和能力。這是其他模型可能不需要考慮,也無法“利用”的局面。
換句話說,豆包系列模型是少有的真的在面對大量真實鮮活具體用戶做訓練和優化迭代的模型。
![]()
而負責把這種思路落實下來的一個關鍵環節,是火山引擎。在此前我們和字節模型團隊的交流里,他們選擇了一條很接近字節做產品的思路的方式在做模型:模型的設計其實最終是和真實用戶一起完成的,火山引擎作為模型對外統一的出口,和字節的模型部門Seed緊密合作,火山的模型策略團隊會把市場上的需求反饋收集和抽象出來,直接影響到模型的重要功能和研發方向,一切都要用真實業務價值來衡量模型能力。
在最近的三連擊過程里,火山引擎也開始面對甜蜜的煩惱,Seedance2.0等模型的需求暴增,給火山帶來巨大需求,對它算力基礎設施的要求越來越高。不過,正是這個增長過程里積累的真實經驗,在反過來幫助模型在訓練中得到更高的token利用率和更好的算力效率。
這一切都不得不讓人想到Google。在我們此前的文章《火山有了自己的token經濟學》里,我們就提到,字節和Google是同一個路線:關鍵技術全部自研,模型閉源,產品到研發直接全面打通。
以及,豆包就對應著Gemini,一個大一統的多模態agent模型。Seedance 緊跟Veo,甚至超過了對方。這一切的技術基礎也和Google類似,都長在自己的以AI為核心的機器學習平臺和云服務上,然后這些“Gemini同款”和“豆包同款”細化成產品再提供給外界。
而Google是在Gemini 3 的發布之后,真正證明了自己這一整套路線的正確,從此真正進入自己的節奏里。
此次豆包系列所創造出的氛圍也異曲同工。Google在發布Gemini3時的一個變化是,新模型和自己國民級應用以及自有基礎設施平臺第一次在第一時間緊密結合,Gemini 3第一時間上線Google各種應用,同時,Nano Banana Pro緊隨其后進一步確立它模型在使用者中的地位。而字節這一次的節奏也很有意思,Seedance并非單獨上線,而是和一系列產品緊密結合,從即夢到小云雀到剪映再到豆包,最終和豆包大模型一起在火山上提供給更多用戶,你都可以想象春晚期間多少人在這些平臺上創造自己的“短劇”,火山的token會繼續井噴。
堅定地選擇把全模態和通用能力都全部訓到一起,堅持要把產品和模型打通,把對外服務的基礎設施看到的產業需求和模型功能設計打通,這是兩家公司的相同決定。而Google的選擇在很長一段時間并非公認的正確方向,甚至質疑不斷,直到Gemini 3的到來;而字節在以開源為主戰場的模型競爭氛圍里繼續堅持了閉源和與真實規模化的應用結合的路線,同樣曾經是,也許現在依然是一個“非共識”的方向。
現在都到了turning point。
在我們去年底的預測里我們曾預測了字節的豆包系列模型的轉折點,我們當時這樣寫道:
“2025年,DeepSeek的成功改變了中國模型廠商們的技術策略,開源成了最優選擇,字節成了僅有的幾個依然閉源的廠商,這樣的決策在2026年將迎來“證明時刻”,字節在模型研發上的各種積累其實已經有跡可循,Seed是時候交出一份閉源答卷了。”
看起來,今天這個預言似乎正在應驗。在模型和落地上按自己的想法走出一條路,并且用一代模型直接證明了這條路的正確,字節在這個二月,算是接近它自己的Gemini 3時刻了。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.