網易首頁 > 網易號 > 正文申請入駐

郭達雅補上了字節最后一塊短板

2026-04-17 20:55:05　來源: 虎嗅APP

北京舉報

分享至

本文來自微信公眾號：字母AI，作者：苗正，題圖來自：視覺中國

離開DeepSeek的郭達雅，成為大廠爭奪的焦點（詳見《為什么大廠必須搶郭達雅》）。

如今郭達雅的去向塵埃落定，據晚點消息，字節成為這場爭奪戰的勝利者。

郭達雅可是AI圈的大紅人，網上流傳著一種說法，阿里給出了post-train負責人的職位，騰訊和百度也都開出了很高的價碼。

可郭達雅最后偏偏選擇了字節。

要知道，字節在多模態上已經做到全球領先，Seedance 2.0曾問鼎在各類視頻生成排行榜，可郭達雅研究的方向顯然和這塊有點遠。

更讓人好奇的是，就算如此，字節還愿意給郭達雅開出接近億元年包的待遇（對此消息，字節副總裁表示不實）。

答案藏在字節最近半年的一系列動作里。

2026 年初，字節啟動了針對 agent 和 Coding 的組織整合。

梁汝波在全員會上說，2026年的重中之重是AI模型能力要做到行業前列。從Trae獨立拆分SOLO，再到扣子平臺升級到2.5版本。這些動作指向同一個方向：字節在為agent時代做準備。

而郭達雅，恰好是最懂如何讓agent跑起來的人。

字節有短板

字節的多模態能力很強，吳永輝、周暢、郁博文、蔣路這些大牛陸續加入Seed團隊，他們給字節帶來了一套完整的多模態研發體系。

但字節在數學推理、代碼智能和agent這三個方向上，始終沒能建立起明顯優勢。

Seed 2.0在AIME、HMMT、IMOAnswerBench這些競賽型題目上很猛，很多分數已經站在了全球的第一梯隊。

但是如果往科學推理和開放知識任務上看，你會發現有很多問題。

Seed 2.0在GPQA Diamond上落后于GPT-5.2和Gemini 3 Pro，在SuperGPQA上也低于Gemini 3 Pro和Claude Opus 4.5。

更明顯的是SimpleQA Verified和FactScore這類事實準確性指標，Seed 2.0和Google、OpenAI、Anthropic這些企業的高端模型還有不小距離。

這說明它的競賽解題能力已經很強，但知識穩健性、科學問題里的長鏈條判斷、以及“知道自己不知道什么”的能力，還差點火候。

再看AI編程。

Seed 2.0在Codeforces和LiveCodeBench v6上表現很強，說明算法題和在線編程能力不差。但在SWE-Bench Verified上，它低于Claude Opus 4.5和GPT-5.2。Claude Opus 4.5最高得分80.9%，GPT-5.2 得分80.0%，而Seed 2.0 Pro在這個基準的第三方實測成績僅為76.5%，甚至還沒有入榜單前10。

在Terminal Bench 2.0上，它也落后于GPT-5.2和Claude Opus 4.5。

在Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot這些更接近真實軟件工程和長期維護的指標上，Seed 2.0的排名都不高。

這些真實環境的測試很重要。尤其是對于Trae這種AI+IDE的產品來說，能在這些測試里跑出高分，代表你的產品能在復雜項目里不犯錯，并且還具備回滾、驗證、解釋的能力。

最后就是agent。

其實字節不是沒有Agent能力，甚至是說Seed 2.0的搜索、使用工具、視覺agent，它都跑出了不錯的成績。

它在BrowseComp、BrowseComp-zh、DeepSearchQA上表現突出，說明Seed 2.0的搜索、瀏覽和整理信息能力已經非常可以了。

但是，但一旦換成MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro這類考驗模型長期執行、多工具組合、真實終端操作、復雜軟件工程能力的基準，Seed 2.0的表現就不太行了。

這其實也正是agent最難做的地方，你得連續地去理解目標、拆解任務、調用工具、寫代碼、驗證結果、在失敗后修正路線。

可問題就是，它不容易發掘。如果說是多模態上的問題，把狗畫成了貓，一眼你就能看出來。agent不一樣，它是藏在那些又繁瑣又無聊的步驟里的。

就拿SWE-Bench Verified來說。這個測試是把真實GitHub項目里的issue交給模型，讓它讀倉庫、定位相關文件、修改代碼，再用項目原有測試判斷補丁能不能通過。

這里沒有哪一步是炫技，全是工程里的臟活累活。

模型如果一開始理解錯issue，后面改得越多越偏。如果找對了文件卻漏了一個邊界條件，測試照樣過不了。如果只修當前報錯，又引入新的回歸，最后也算失敗。

agent的難點就在這里，中間你只要錯一步，整個任務就會塌。

那數學和代碼能力為啥也很重要呢？

因為它們是agent的骨架。

數學推理提供的是長鏈路上的自洽能力，代碼能力提供的是把想法變成可執行動作的能力。

所以郭達雅的加入，補的是底層能力。

字節已有眼睛，有入口，有場景，有算力和工程組織。它欠缺的，是一個能把代碼智能、數學推理、強化學習后訓練和Agent執行連成一條線的人。

郭達雅最擅長的，不只是寫代碼

郭達雅容易被外界用“代碼大模型專家”來概括，這個說法沒錯，但有點窄。

他的研究總結就是一句話：讓模型理解代碼也有語法，有數據流，有調用關系，有上下文，還有可以被執行和驗證的結果。

郭達雅在DeepSeek的兩年多時間里，參與了從Coder、Math等專項模型，到V2、V3、R1的完整研發鏈條，而且都是核心作者。這個履歷的含金量不在于項目數量，而在于他參與的是一條完整的技術演進路線。

2024年1月，郭達雅作為第一作者推出DeepSeek-Coder系列，覆蓋1.3B到33B參數的開源代碼模型。這個系列在多項基準測試中登頂當時開源代碼模型SOTA，不僅能理解復雜代碼邏輯，還能高效生成高質量代碼。

但DeepSeek-Coder的價值不止于此。它為DeepSeek在代碼領域站穩腳跟奠定了基礎，更重要的是，它驗證了一套從數據構建、模型訓練到能力評估的完整方法論。

一個月后，郭達雅主導了DeepSeek-Math的研發。這個項目以DeepSeek-Coder-Base-v1.5 7B為基礎，針對數學能力進行繼續訓練，額外使用了120B數學相關token。

但真正關鍵的是DeepSeek-Math論文中提出的GRPO算法，讓模型對同一問題生成多個答案并相互比較學習，大幅降低了訓練成本。

GRPO后來被應用到DeepSeek-R1的訓練中，成為R1推理能力飛躍的核心技術，因此讓DeepSeek-R1的訓練成本低至僅29.4萬美元。

從DeepSeek-Coder到DeepSeek-Math，再到R1，郭達雅做的是一套可以遷移、可以復用的技術體系。這個模型可以用，拿出來優化優化，到下一個模型效果更好。

代碼能力可以遷移到數學推理，數學推理的訓練方法可以遷移到通用推理。這種技術遷移能力，正是字節目前最需要的。

郭達雅加入字節后，擔任的是Seed agent的方向負責人之一。這其實也是郭達雅從博士期間就開始研究的方向。他在DeepSeek 期間積累的經驗，可以直接應用到字節的agent研發中。

字節在2026年初啟動了針對agent和Coding的組織整合。

但它又不是那種單純的團隊合并，字節是準備去建立一套新的研發體系。郭達雅的加入，為這個體系提供了技術基礎。

他可以把在DeepSeek積累的代碼預訓練、數學推理、強化學習這些技術，系統性地應用到字節的agent研發中。

郭達雅的技術路線與字節的業務需求高度匹配。字節的下一代模型重點就是agent能力的優化。

郭達雅從博士時期的CodeBERT開始，到DeepSeek-Coder，再到參與V2、V3、R1的研發，這條技術路線完整覆蓋了從代碼理解到推理能力的全鏈路。這正是字節需要的。

更重要的是，他帶來的不只是技術，還有一套完整的方法論。

GRPO這個方法的核心思想是讓模型自己學會判斷答案的好壞，而不是依賴人工標注。到了后來的DeepSeek-R1里，不需要人工標注的推理軌跡，僅通過純強化學習也能有效激發大模型的推理能力，并自然涌現出自反思、驗證、動態策略調整等行為模式。

這套方法論對字節的價值在于，它可以降低對高質量標注數據的依賴，可以讓模型在訓練過程中自己發現規律。

前面我已經說過了，agent是在跑的時候任何一個環節都不能出錯，處理的任務往往是開放式的，很難通過人工標注來覆蓋所有情況。

如果能讓模型自己學會判斷任務完成的好壞，自己學會調整策略，那agent的能力上限就會大幅提升。

郭達雅離開DeepSeek的一個原因是他很看好agent方向，不過當時在DeepSeek內部agent的優先級不高。這才導致他最終選擇了字節。

字節則非常看重agent方向，愿意投入資源，給了郭達雅足夠的施展空間。

未來可能出現的產品，不會只是一款更聰明的豆包

郭達雅加入字節后，最直接的影響會體現在豆包的代碼能力上。

字節現在已經有了Trae這個AI原生IDE，也有豆包Code模型，但這些產品的底層能力還不夠強。

參考DeepSeek-Coder的性能提升方法，字節很可能會推出一個專門針對代碼優化的豆包Coder模型。這個模型不會是簡單的參數堆疊，而會在代碼理解和生成的深度上做文章。

郭達雅在CodeBERT和GraphCodeBERT中提出的雙模態預訓練和數據流結構建模，可以直接應用到豆包Coder的訓練中。

火山方舟推出了Coding Plan訂閱套餐，支持豆包、DeepSeek和Kimi等多個模型，采用Anthropic原生協議，配置簡單。

不過目前來看，火山方舟更多的是在做模型接入和工程優化，走的是多模型聚合+工程化優化的路子，還沒有形成自己的技術壁壘。

火山的套餐里有一個Auto模式，就是說你發起一個編程任務后，它會根據任務類型、響應速度、模型效果、成本等因素，自動路由到更合適的模型。

這個能力本身有用，但還偏工程優化。它知道哪個模型適合當前任務，卻不一定能把這個判斷沉淀成模型能力。

郭達雅加入后，它能把Auto模式產生的大量真實開發任務，反過來變成Doubao-Seed-Code的訓練燃料。

比如某類前端重構任務DeepSeek更穩，某類測試修復Kimi更好，某類終端任務豆包失敗率高。

平臺如果能記錄任務類型、模型選擇、補丁是否通過測試、用戶是否采納、失敗原因在哪里，就能形成一個很稀缺的代碼Agent數據閉環。

郭達雅擅長的可驗證任務，正好可以把這些反饋變成后訓練系統。

這樣一來，火山方舟的壁壘就變了。

它把外部模型接進來，然后在真實開發場景里持續觀察模型、比較模型、訓練模型。

別人的多模型聚合，停在分發層；字節的多模型聚合，有機會長出一個自我進化的代碼模型。

還有一點，由于火山目前的Coding Plan的定義是面向個人開發者的輕量AI編程訂閱服務。所以郭達雅完全有機會帶領字節開發出一個企業版的Coding Plan。

但是企業和個人對AI編程的需求差距大很多。

企業要的是舊系統維護、代碼遷移、測試補齊、安全修復和內部工具開發。火山方舟可以推出一個類似“代碼庫醫生”的agent產品。

agent接入企業代碼倉庫后，自動掃描依賴、識別壞味道、補單測、修漏洞、做版本升級，最后生成可審查的PR。

針對大型代碼庫的長期理解、測試反饋的迭代利用、企業權限與數據安全的合規處理，正是郭達雅的技術強項，他完全可以打造出一款能長期維護項目的工程化agent。

同時，字節在視頻生成上的優勢，也可以和代碼能力結合。

一個可能的方向是視頻內容的程序化生成，就像世界模型一樣。用戶描述想要的視頻效果，AI生成一段可以控制Seedance的代碼。

這段代碼可以精確控制鏡頭運動、場景切換、音畫同步等參數。這種程序化的方式，可以讓視頻生成更加可控，也更容易迭代優化。

數學推理能力的提升，會讓豆包在需要精確計算和邏輯推理的場景中表現更好。

字節還可以推出一個專門針對科研和工程場景的豆包版本，就像OpenAI的Prism一樣，支持復雜的數學建模、數據分析、算法設計等任務。

這個版本可以集成形式化證明能力，確保推理過程的嚴格性。這對于金融、醫療、工業等對可靠性要求高的行業非常重要。

郭達雅的加入，不是簡單的人才引進，他體現出來的是字節在AI戰略上的調整。字節在多模態上已經做到了全球領先，現在需要在代碼智能和agent上建立同樣的優勢。

本文來自微信公眾號：字母AI，作者：苗正

本內容由作者授權發布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4851342.html?f=wyxwapp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.