![]()
本文來自微信公眾號:字母AI,作者:苗正,題圖來自:視覺中國
離開DeepSeek的郭達雅,成為大廠爭奪的焦點(詳見《為什么大廠必須搶郭達雅》)。
如今郭達雅的去向塵埃落定,據晚點消息,字節成為這場爭奪戰的勝利者。
郭達雅可是AI圈的大紅人,網上流傳著一種說法,阿里給出了post-train負責人的職位,騰訊和百度也都開出了很高的價碼。
可郭達雅最后偏偏選擇了字節。
要知道,字節在多模態上已經做到全球領先,Seedance 2.0曾問鼎在各類視頻生成排行榜,可郭達雅研究的方向顯然和這塊有點遠。
更讓人好奇的是,就算如此,字節還愿意給郭達雅開出接近億元年包的待遇(對此消息,字節副總裁表示不實)。
答案藏在字節最近半年的一系列動作里。
2026 年初,字節啟動了針對 agent 和 Coding 的組織整合。
梁汝波在全員會上說,2026年的重中之重是AI模型能力要做到行業前列。從Trae獨立拆分SOLO,再到扣子平臺升級到2.5版本。這些動作指向同一個方向:字節在為agent時代做準備。
而郭達雅,恰好是最懂如何讓agent跑起來的人。
字節有短板
字節的多模態能力很強,吳永輝、周暢、郁博文、蔣路這些大牛陸續加入Seed團隊,他們給字節帶來了一套完整的多模態研發體系。
但字節在數學推理、代碼智能和agent這三個方向上,始終沒能建立起明顯優勢。
Seed 2.0在AIME、HMMT、IMOAnswerBench這些競賽型題目上很猛,很多分數已經站在了全球的第一梯隊。
但是如果往科學推理和開放知識任務上看,你會發現有很多問題。
Seed 2.0在GPQA Diamond上落后于GPT-5.2和Gemini 3 Pro,在SuperGPQA上也低于Gemini 3 Pro和Claude Opus 4.5。
更明顯的是SimpleQA Verified和FactScore這類事實準確性指標,Seed 2.0和Google、OpenAI、Anthropic這些企業的高端模型還有不小距離。
這說明它的競賽解題能力已經很強,但知識穩健性、科學問題里的長鏈條判斷、以及“知道自己不知道什么”的能力,還差點火候。
再看AI編程。
Seed 2.0在Codeforces和LiveCodeBench v6上表現很強,說明算法題和在線編程能力不差。但在SWE-Bench Verified上,它低于Claude Opus 4.5和GPT-5.2。Claude Opus 4.5最高得分80.9%,GPT-5.2 得分80.0%,而Seed 2.0 Pro在這個基準的第三方實測成績僅為76.5%,甚至還沒有入榜單前10。
在Terminal Bench 2.0上,它也落后于GPT-5.2和Claude Opus 4.5。
在Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot這些更接近真實軟件工程和長期維護的指標上,Seed 2.0的排名都不高。
這些真實環境的測試很重要。尤其是對于Trae這種AI+IDE的產品來說,能在這些測試里跑出高分,代表你的產品能在復雜項目里不犯錯,并且還具備回滾、驗證、解釋的能力。
最后就是agent。
其實字節不是沒有Agent能力,甚至是說Seed 2.0的搜索、使用工具、視覺agent,它都跑出了不錯的成績。
它在BrowseComp、BrowseComp-zh、DeepSearchQA上表現突出,說明Seed 2.0的搜索、瀏覽和整理信息能力已經非常可以了。
但是,但一旦換成MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro這類考驗模型長期執行、多工具組合、真實終端操作、復雜軟件工程能力的基準,Seed 2.0的表現就不太行了。
這其實也正是agent最難做的地方,你得連續地去理解目標、拆解任務、調用工具、寫代碼、驗證結果、在失敗后修正路線。
可問題就是,它不容易發掘。如果說是多模態上的問題,把狗畫成了貓,一眼你就能看出來。agent不一樣,它是藏在那些又繁瑣又無聊的步驟里的。
就拿SWE-Bench Verified來說。這個測試是把真實GitHub項目里的issue交給模型,讓它讀倉庫、定位相關文件、修改代碼,再用項目原有測試判斷補丁能不能通過。
這里沒有哪一步是炫技,全是工程里的臟活累活。
模型如果一開始理解錯issue,后面改得越多越偏。如果找對了文件卻漏了一個邊界條件,測試照樣過不了。如果只修當前報錯,又引入新的回歸,最后也算失敗。
agent的難點就在這里,中間你只要錯一步,整個任務就會塌。
那數學和代碼能力為啥也很重要呢?
因為它們是agent的骨架。
數學推理提供的是長鏈路上的自洽能力,代碼能力提供的是把想法變成可執行動作的能力。
所以郭達雅的加入,補的是底層能力。
字節已有眼睛,有入口,有場景,有算力和工程組織。它欠缺的,是一個能把代碼智能、數學推理、強化學習后訓練和Agent執行連成一條線的人。
郭達雅最擅長的,不只是寫代碼
郭達雅容易被外界用“代碼大模型專家”來概括,這個說法沒錯,但有點窄。
他的研究總結就是一句話:讓模型理解代碼也有語法,有數據流,有調用關系,有上下文,還有可以被執行和驗證的結果。
郭達雅在DeepSeek的兩年多時間里,參與了從Coder、Math等專項模型,到V2、V3、R1的完整研發鏈條,而且都是核心作者。這個履歷的含金量不在于項目數量,而在于他參與的是一條完整的技術演進路線。
![]()
2024年1月,郭達雅作為第一作者推出DeepSeek-Coder系列,覆蓋1.3B到33B參數的開源代碼模型。這個系列在多項基準測試中登頂當時開源代碼模型SOTA,不僅能理解復雜代碼邏輯,還能高效生成高質量代碼。
但DeepSeek-Coder的價值不止于此。它為DeepSeek在代碼領域站穩腳跟奠定了基礎,更重要的是,它驗證了一套從數據構建、模型訓練到能力評估的完整方法論。
一個月后,郭達雅主導了DeepSeek-Math的研發。這個項目以DeepSeek-Coder-Base-v1.5 7B為基礎,針對數學能力進行繼續訓練,額外使用了120B數學相關token。
但真正關鍵的是DeepSeek-Math論文中提出的GRPO算法,讓模型對同一問題生成多個答案并相互比較學習,大幅降低了訓練成本。
GRPO后來被應用到DeepSeek-R1的訓練中,成為R1推理能力飛躍的核心技術,因此讓DeepSeek-R1的訓練成本低至僅29.4萬美元。
從DeepSeek-Coder到DeepSeek-Math,再到R1,郭達雅做的是一套可以遷移、可以復用的技術體系。這個模型可以用,拿出來優化優化,到下一個模型效果更好。
代碼能力可以遷移到數學推理,數學推理的訓練方法可以遷移到通用推理。這種技術遷移能力,正是字節目前最需要的。
郭達雅加入字節后,擔任的是Seed agent的方向負責人之一。這其實也是郭達雅從博士期間就開始研究的方向。他在DeepSeek 期間積累的經驗,可以直接應用到字節的agent研發中。
字節在2026年初啟動了針對agent和Coding的組織整合。
但它又不是那種單純的團隊合并,字節是準備去建立一套新的研發體系。郭達雅的加入,為這個體系提供了技術基礎。
他可以把在DeepSeek積累的代碼預訓練、數學推理、強化學習這些技術,系統性地應用到字節的agent研發中。
郭達雅的技術路線與字節的業務需求高度匹配。字節的下一代模型重點就是agent能力的優化。
郭達雅從博士時期的CodeBERT開始,到DeepSeek-Coder,再到參與V2、V3、R1的研發,這條技術路線完整覆蓋了從代碼理解到推理能力的全鏈路。這正是字節需要的。
更重要的是,他帶來的不只是技術,還有一套完整的方法論。
GRPO這個方法的核心思想是讓模型自己學會判斷答案的好壞,而不是依賴人工標注。到了后來的DeepSeek-R1里,不需要人工標注的推理軌跡,僅通過純強化學習也能有效激發大模型的推理能力,并自然涌現出自反思、驗證、動態策略調整等行為模式。
這套方法論對字節的價值在于,它可以降低對高質量標注數據的依賴,可以讓模型在訓練過程中自己發現規律。
前面我已經說過了,agent是在跑的時候任何一個環節都不能出錯,處理的任務往往是開放式的,很難通過人工標注來覆蓋所有情況。
如果能讓模型自己學會判斷任務完成的好壞,自己學會調整策略,那agent的能力上限就會大幅提升。
郭達雅離開DeepSeek的一個原因是他很看好agent方向,不過當時在DeepSeek內部agent的優先級不高。這才導致他最終選擇了字節。
字節則非常看重agent方向,愿意投入資源,給了郭達雅足夠的施展空間。
未來可能出現的產品,不會只是一款更聰明的豆包
郭達雅加入字節后,最直接的影響會體現在豆包的代碼能力上。
字節現在已經有了Trae這個AI原生IDE,也有豆包Code模型,但這些產品的底層能力還不夠強。
參考DeepSeek-Coder的性能提升方法,字節很可能會推出一個專門針對代碼優化的豆包Coder模型。這個模型不會是簡單的參數堆疊,而會在代碼理解和生成的深度上做文章。
郭達雅在CodeBERT和GraphCodeBERT中提出的雙模態預訓練和數據流結構建模,可以直接應用到豆包Coder的訓練中。
火山方舟推出了Coding Plan訂閱套餐,支持豆包、DeepSeek和Kimi等多個模型,采用Anthropic原生協議,配置簡單。
不過目前來看,火山方舟更多的是在做模型接入和工程優化,走的是多模型聚合+工程化優化的路子,還沒有形成自己的技術壁壘。
火山的套餐里有一個Auto模式,就是說你發起一個編程任務后,它會根據任務類型、響應速度、模型效果、成本等因素,自動路由到更合適的模型。
這個能力本身有用,但還偏工程優化。它知道哪個模型適合當前任務,卻不一定能把這個判斷沉淀成模型能力。
郭達雅加入后,它能把Auto模式產生的大量真實開發任務,反過來變成Doubao-Seed-Code的訓練燃料。
比如某類前端重構任務DeepSeek更穩,某類測試修復Kimi更好,某類終端任務豆包失敗率高。
平臺如果能記錄任務類型、模型選擇、補丁是否通過測試、用戶是否采納、失敗原因在哪里,就能形成一個很稀缺的代碼Agent數據閉環。
郭達雅擅長的可驗證任務,正好可以把這些反饋變成后訓練系統。
這樣一來,火山方舟的壁壘就變了。
它把外部模型接進來,然后在真實開發場景里持續觀察模型、比較模型、訓練模型。
別人的多模型聚合,停在分發層;字節的多模型聚合,有機會長出一個自我進化的代碼模型。
還有一點,由于火山目前的Coding Plan的定義是面向個人開發者的輕量AI編程訂閱服務。所以郭達雅完全有機會帶領字節開發出一個企業版的Coding Plan。
但是企業和個人對AI編程的需求差距大很多。
企業要的是舊系統維護、代碼遷移、測試補齊、安全修復和內部工具開發。火山方舟可以推出一個類似“代碼庫醫生”的agent產品。
agent接入企業代碼倉庫后,自動掃描依賴、識別壞味道、補單測、修漏洞、做版本升級,最后生成可審查的PR。
針對大型代碼庫的長期理解、測試反饋的迭代利用、企業權限與數據安全的合規處理,正是郭達雅的技術強項,他完全可以打造出一款能長期維護項目的工程化agent。
同時,字節在視頻生成上的優勢,也可以和代碼能力結合。
一個可能的方向是視頻內容的程序化生成,就像世界模型一樣。用戶描述想要的視頻效果,AI生成一段可以控制Seedance的代碼。
這段代碼可以精確控制鏡頭運動、場景切換、音畫同步等參數。這種程序化的方式,可以讓視頻生成更加可控,也更容易迭代優化。
數學推理能力的提升,會讓豆包在需要精確計算和邏輯推理的場景中表現更好。
字節還可以推出一個專門針對科研和工程場景的豆包版本,就像OpenAI的Prism一樣,支持復雜的數學建模、數據分析、算法設計等任務。
這個版本可以集成形式化證明能力,確保推理過程的嚴格性。這對于金融、醫療、工業等對可靠性要求高的行業非常重要。
郭達雅的加入,不是簡單的人才引進,他體現出來的是字節在AI戰略上的調整。字節在多模態上已經做到了全球領先,現在需要在代碼智能和agent上建立同樣的優勢。
本文來自微信公眾號:字母AI,作者:苗正
本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4851342.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.