<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      郭達雅補上了字節最后一塊短板

      0
      分享至


      本文來自微信公眾號:字母AI,作者:苗正,題圖來自:視覺中國

      離開DeepSeek的郭達雅,成為大廠爭奪的焦點(詳見《為什么大廠必須搶郭達雅》)。

      如今郭達雅的去向塵埃落定,據晚點消息,字節成為這場爭奪戰的勝利者。

      郭達雅可是AI圈的大紅人,網上流傳著一種說法,阿里給出了post-train負責人的職位,騰訊和百度也都開出了很高的價碼。

      可郭達雅最后偏偏選擇了字節。

      要知道,字節在多模態上已經做到全球領先,Seedance 2.0曾問鼎在各類視頻生成排行榜,可郭達雅研究的方向顯然和這塊有點遠。

      更讓人好奇的是,就算如此,字節還愿意給郭達雅開出接近億元年包的待遇(對此消息,字節副總裁表示不實)。

      答案藏在字節最近半年的一系列動作里。

      2026 年初,字節啟動了針對 agent 和 Coding 的組織整合。

      梁汝波在全員會上說,2026年的重中之重是AI模型能力要做到行業前列。從Trae獨立拆分SOLO,再到扣子平臺升級到2.5版本。這些動作指向同一個方向:字節在為agent時代做準備。

      而郭達雅,恰好是最懂如何讓agent跑起來的人。

      字節有短板

      字節的多模態能力很強,吳永輝、周暢、郁博文、蔣路這些大牛陸續加入Seed團隊,他們給字節帶來了一套完整的多模態研發體系。

      但字節在數學推理、代碼智能和agent這三個方向上,始終沒能建立起明顯優勢。

      Seed 2.0在AIME、HMMT、IMOAnswerBench這些競賽型題目上很猛,很多分數已經站在了全球的第一梯隊。

      但是如果往科學推理和開放知識任務上看,你會發現有很多問題。

      Seed 2.0在GPQA Diamond上落后于GPT-5.2和Gemini 3 Pro,在SuperGPQA上也低于Gemini 3 Pro和Claude Opus 4.5。

      更明顯的是SimpleQA Verified和FactScore這類事實準確性指標,Seed 2.0和Google、OpenAI、Anthropic這些企業的高端模型還有不小距離。

      這說明它的競賽解題能力已經很強,但知識穩健性、科學問題里的長鏈條判斷、以及“知道自己不知道什么”的能力,還差點火候。

      再看AI編程。

      Seed 2.0在Codeforces和LiveCodeBench v6上表現很強,說明算法題和在線編程能力不差。但在SWE-Bench Verified上,它低于Claude Opus 4.5和GPT-5.2。Claude Opus 4.5最高得分80.9%,GPT-5.2 得分80.0%,而Seed 2.0 Pro在這個基準的第三方實測成績僅為76.5%,甚至還沒有入榜單前10。

      在Terminal Bench 2.0上,它也落后于GPT-5.2和Claude Opus 4.5。

      在Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot這些更接近真實軟件工程和長期維護的指標上,Seed 2.0的排名都不高。

      這些真實環境的測試很重要。尤其是對于Trae這種AI+IDE的產品來說,能在這些測試里跑出高分,代表你的產品能在復雜項目里不犯錯,并且還具備回滾、驗證、解釋的能力。

      最后就是agent。

      其實字節不是沒有Agent能力,甚至是說Seed 2.0的搜索、使用工具、視覺agent,它都跑出了不錯的成績。

      它在BrowseComp、BrowseComp-zh、DeepSearchQA上表現突出,說明Seed 2.0的搜索、瀏覽和整理信息能力已經非常可以了。

      但是,但一旦換成MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro這類考驗模型長期執行、多工具組合、真實終端操作、復雜軟件工程能力的基準,Seed 2.0的表現就不太行了。

      這其實也正是agent最難做的地方,你得連續地去理解目標、拆解任務、調用工具、寫代碼、驗證結果、在失敗后修正路線。

      可問題就是,它不容易發掘。如果說是多模態上的問題,把狗畫成了貓,一眼你就能看出來。agent不一樣,它是藏在那些又繁瑣又無聊的步驟里的。

      就拿SWE-Bench Verified來說。這個測試是把真實GitHub項目里的issue交給模型,讓它讀倉庫、定位相關文件、修改代碼,再用項目原有測試判斷補丁能不能通過。

      這里沒有哪一步是炫技,全是工程里的臟活累活。

      模型如果一開始理解錯issue,后面改得越多越偏。如果找對了文件卻漏了一個邊界條件,測試照樣過不了。如果只修當前報錯,又引入新的回歸,最后也算失敗。

      agent的難點就在這里,中間你只要錯一步,整個任務就會塌。

      那數學和代碼能力為啥也很重要呢?

      因為它們是agent的骨架。

      數學推理提供的是長鏈路上的自洽能力,代碼能力提供的是把想法變成可執行動作的能力。

      所以郭達雅的加入,補的是底層能力。

      字節已有眼睛,有入口,有場景,有算力和工程組織。它欠缺的,是一個能把代碼智能、數學推理、強化學習后訓練和Agent執行連成一條線的人。

      郭達雅最擅長的,不只是寫代碼

      郭達雅容易被外界用“代碼大模型專家”來概括,這個說法沒錯,但有點窄。

      他的研究總結就是一句話:讓模型理解代碼也有語法,有數據流,有調用關系,有上下文,還有可以被執行和驗證的結果。

      郭達雅在DeepSeek的兩年多時間里,參與了從Coder、Math等專項模型,到V2、V3、R1的完整研發鏈條,而且都是核心作者。這個履歷的含金量不在于項目數量,而在于他參與的是一條完整的技術演進路線。


      2024年1月,郭達雅作為第一作者推出DeepSeek-Coder系列,覆蓋1.3B到33B參數的開源代碼模型。這個系列在多項基準測試中登頂當時開源代碼模型SOTA,不僅能理解復雜代碼邏輯,還能高效生成高質量代碼。

      但DeepSeek-Coder的價值不止于此。它為DeepSeek在代碼領域站穩腳跟奠定了基礎,更重要的是,它驗證了一套從數據構建、模型訓練到能力評估的完整方法論。

      一個月后,郭達雅主導了DeepSeek-Math的研發。這個項目以DeepSeek-Coder-Base-v1.5 7B為基礎,針對數學能力進行繼續訓練,額外使用了120B數學相關token。

      但真正關鍵的是DeepSeek-Math論文中提出的GRPO算法,讓模型對同一問題生成多個答案并相互比較學習,大幅降低了訓練成本。

      GRPO后來被應用到DeepSeek-R1的訓練中,成為R1推理能力飛躍的核心技術,因此讓DeepSeek-R1的訓練成本低至僅29.4萬美元。

      從DeepSeek-Coder到DeepSeek-Math,再到R1,郭達雅做的是一套可以遷移、可以復用的技術體系。這個模型可以用,拿出來優化優化,到下一個模型效果更好。

      代碼能力可以遷移到數學推理,數學推理的訓練方法可以遷移到通用推理。這種技術遷移能力,正是字節目前最需要的。

      郭達雅加入字節后,擔任的是Seed agent的方向負責人之一。這其實也是郭達雅從博士期間就開始研究的方向。他在DeepSeek 期間積累的經驗,可以直接應用到字節的agent研發中。

      字節在2026年初啟動了針對agent和Coding的組織整合。

      但它又不是那種單純的團隊合并,字節是準備去建立一套新的研發體系。郭達雅的加入,為這個體系提供了技術基礎。

      他可以把在DeepSeek積累的代碼預訓練、數學推理、強化學習這些技術,系統性地應用到字節的agent研發中。

      郭達雅的技術路線與字節的業務需求高度匹配。字節的下一代模型重點就是agent能力的優化。

      郭達雅從博士時期的CodeBERT開始,到DeepSeek-Coder,再到參與V2、V3、R1的研發,這條技術路線完整覆蓋了從代碼理解到推理能力的全鏈路。這正是字節需要的。

      更重要的是,他帶來的不只是技術,還有一套完整的方法論。

      GRPO這個方法的核心思想是讓模型自己學會判斷答案的好壞,而不是依賴人工標注。到了后來的DeepSeek-R1里,不需要人工標注的推理軌跡,僅通過純強化學習也能有效激發大模型的推理能力,并自然涌現出自反思、驗證、動態策略調整等行為模式。

      這套方法論對字節的價值在于,它可以降低對高質量標注數據的依賴,可以讓模型在訓練過程中自己發現規律。

      前面我已經說過了,agent是在跑的時候任何一個環節都不能出錯,處理的任務往往是開放式的,很難通過人工標注來覆蓋所有情況。

      如果能讓模型自己學會判斷任務完成的好壞,自己學會調整策略,那agent的能力上限就會大幅提升。

      郭達雅離開DeepSeek的一個原因是他很看好agent方向,不過當時在DeepSeek內部agent的優先級不高。這才導致他最終選擇了字節。

      字節則非常看重agent方向,愿意投入資源,給了郭達雅足夠的施展空間。

      未來可能出現的產品,不會只是一款更聰明的豆包

      郭達雅加入字節后,最直接的影響會體現在豆包的代碼能力上。

      字節現在已經有了Trae這個AI原生IDE,也有豆包Code模型,但這些產品的底層能力還不夠強。

      參考DeepSeek-Coder的性能提升方法,字節很可能會推出一個專門針對代碼優化的豆包Coder模型。這個模型不會是簡單的參數堆疊,而會在代碼理解和生成的深度上做文章。

      郭達雅在CodeBERT和GraphCodeBERT中提出的雙模態預訓練和數據流結構建模,可以直接應用到豆包Coder的訓練中。

      火山方舟推出了Coding Plan訂閱套餐,支持豆包、DeepSeek和Kimi等多個模型,采用Anthropic原生協議,配置簡單。

      不過目前來看,火山方舟更多的是在做模型接入和工程優化,走的是多模型聚合+工程化優化的路子,還沒有形成自己的技術壁壘。

      火山的套餐里有一個Auto模式,就是說你發起一個編程任務后,它會根據任務類型、響應速度、模型效果、成本等因素,自動路由到更合適的模型。

      這個能力本身有用,但還偏工程優化。它知道哪個模型適合當前任務,卻不一定能把這個判斷沉淀成模型能力。

      郭達雅加入后,它能把Auto模式產生的大量真實開發任務,反過來變成Doubao-Seed-Code的訓練燃料。

      比如某類前端重構任務DeepSeek更穩,某類測試修復Kimi更好,某類終端任務豆包失敗率高。

      平臺如果能記錄任務類型、模型選擇、補丁是否通過測試、用戶是否采納、失敗原因在哪里,就能形成一個很稀缺的代碼Agent數據閉環。

      郭達雅擅長的可驗證任務,正好可以把這些反饋變成后訓練系統。

      這樣一來,火山方舟的壁壘就變了。

      它把外部模型接進來,然后在真實開發場景里持續觀察模型、比較模型、訓練模型。

      別人的多模型聚合,停在分發層;字節的多模型聚合,有機會長出一個自我進化的代碼模型。

      還有一點,由于火山目前的Coding Plan的定義是面向個人開發者的輕量AI編程訂閱服務。所以郭達雅完全有機會帶領字節開發出一個企業版的Coding Plan。

      但是企業和個人對AI編程的需求差距大很多。

      企業要的是舊系統維護、代碼遷移、測試補齊、安全修復和內部工具開發。火山方舟可以推出一個類似“代碼庫醫生”的agent產品。

      agent接入企業代碼倉庫后,自動掃描依賴、識別壞味道、補單測、修漏洞、做版本升級,最后生成可審查的PR。

      針對大型代碼庫的長期理解、測試反饋的迭代利用、企業權限與數據安全的合規處理,正是郭達雅的技術強項,他完全可以打造出一款能長期維護項目的工程化agent。

      同時,字節在視頻生成上的優勢,也可以和代碼能力結合。

      一個可能的方向是視頻內容的程序化生成,就像世界模型一樣。用戶描述想要的視頻效果,AI生成一段可以控制Seedance的代碼。

      這段代碼可以精確控制鏡頭運動、場景切換、音畫同步等參數。這種程序化的方式,可以讓視頻生成更加可控,也更容易迭代優化。

      數學推理能力的提升,會讓豆包在需要精確計算和邏輯推理的場景中表現更好。

      字節還可以推出一個專門針對科研和工程場景的豆包版本,就像OpenAI的Prism一樣,支持復雜的數學建模、數據分析、算法設計等任務。

      這個版本可以集成形式化證明能力,確保推理過程的嚴格性。這對于金融、醫療、工業等對可靠性要求高的行業非常重要。

      郭達雅的加入,不是簡單的人才引進,他體現出來的是字節在AI戰略上的調整。字節在多模態上已經做到了全球領先,現在需要在代碼智能和agent上建立同樣的優勢。

      本文來自微信公眾號:字母AI,作者:苗正

      本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。

      本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4851342.html?f=wyxwapp

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

      掉了顆大白兔糖
      2026-04-22 11:57:00
      毒打運動員獨吞上百萬獎金,體壇狠心教練,放狼狗盯著運動員

      毒打運動員獨吞上百萬獎金,體壇狠心教練,放狼狗盯著運動員

      何揎室內設計
      2026-04-20 15:48:29
      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      大魚簡科
      2026-02-07 09:52:29
      王為念近況:一頭紫發祭拜老母,被腿傷折磨多年,今66歲孤身一人

      王為念近況:一頭紫發祭拜老母,被腿傷折磨多年,今66歲孤身一人

      以茶帶書
      2026-04-21 17:18:08
      “見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

      “見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

      妍妍教育日記
      2026-04-15 09:30:09
      我退伍后去女戰友家里開的工廠應聘,她紅著臉說:你娶我好嗎?

      我退伍后去女戰友家里開的工廠應聘,她紅著臉說:你娶我好嗎?

      千秋文化
      2026-04-18 19:07:07
      公司突然取消外包保安,安排兩員工24小時輪流值班,堪稱極致降本

      公司突然取消外包保安,安排兩員工24小時輪流值班,堪稱極致降本

      搗蛋窩
      2026-04-21 21:58:20
      “我是宣威人為何不能賣火腿?”云南一商家網售“宣威火腿”被訴侵權

      “我是宣威人為何不能賣火腿?”云南一商家網售“宣威火腿”被訴侵權

      封面新聞
      2026-04-21 18:15:02
      睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

      睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

      錢小刀娛樂
      2026-04-15 21:30:57
      高溫正在偷走巴西孩子的身高

      高溫正在偷走巴西孩子的身高

      薛定諤的BUG
      2026-04-21 15:01:19
      總部人去樓空!上千家供應商被欠4億貨款,這場騙局精心設計僅7天

      總部人去樓空!上千家供應商被欠4億貨款,這場騙局精心設計僅7天

      小祁談歷史
      2026-04-20 22:09:33
      依靠武器,可全殲3萬中國軍隊,美解密文件:一個印軍少校的電報

      依靠武器,可全殲3萬中國軍隊,美解密文件:一個印軍少校的電報

      正觀歷史
      2026-04-21 12:03:38
      2200萬美元成本,《木乃伊》奪得季軍,溫子仁和華納兄弟小賺一筆

      2200萬美元成本,《木乃伊》奪得季軍,溫子仁和華納兄弟小賺一筆

      電影票房預告片
      2026-04-21 23:32:00
      四川一車主因在臨時占道停車場累計停車2411次,拖欠停車費13268元,長期拒不繳納,被法院判決全額支付欠款,并承擔逾期利息

      四川一車主因在臨時占道停車場累計停車2411次,拖欠停車費13268元,長期拒不繳納,被法院判決全額支付欠款,并承擔逾期利息

      瀟湘晨報
      2026-04-21 15:19:11
      時長超三小時的6部史詩級電影,全程無尿點,看完直接封神

      時長超三小時的6部史詩級電影,全程無尿點,看完直接封神

      小微看電影
      2026-04-21 14:15:03
      “指紋鎖”退出中國家庭?開鎖師傅說了實話,我連夜換回了鐵將軍

      “指紋鎖”退出中國家庭?開鎖師傅說了實話,我連夜換回了鐵將軍

      巢客HOME
      2026-04-08 15:48:09
      AI時代最貴的“布”,到底有多搶手?

      AI時代最貴的“布”,到底有多搶手?

      鈦媒體APP
      2026-04-21 16:56:54
      身材豐滿女生,這樣打扮既顯瘦顯腿長,又有女人味

      身材豐滿女生,這樣打扮既顯瘦顯腿長,又有女人味

      美女穿搭分享
      2026-04-20 13:54:46
      日本再放大招,賭我們不會先動手!人民日報發聲,對其稱呼都變了

      日本再放大招,賭我們不會先動手!人民日報發聲,對其稱呼都變了

      一口娛樂
      2026-04-22 11:47:50
      青島多名車主在金盾加油站加油后   遇“問題油”:能啟動、跑不動,油表失靈

      青島多名車主在金盾加油站加油后 遇“問題油”:能啟動、跑不動,油表失靈

      西莫的藝術宮殿
      2026-04-22 00:31:03
      2026-04-22 13:27:00
      虎嗅APP incentive-icons
      虎嗅APP
      個性化商業資訊與觀點交流平臺
      26147文章數 687685關注度
      往期回顧 全部

      科技要聞

      凌晨突發!ChatGPT Images 2.0發布

      頭條要聞

      KTV服務員被指強奸14歲女生 官方通報

      頭條要聞

      KTV服務員被指強奸14歲女生 官方通報

      體育要聞

      一到NBA季后賽,四屆DPOY就成了主角

      娛樂要聞

      復婚無望!baby黃曉明陪小海綿零交流

      財經要聞

      伊朗拒絕出席 特朗普宣布延長停火期限

      汽車要聞

      四款全球首秀+AI落地 大眾汽車集團在華轉型全面提速

      態度原創

      手機
      親子
      數碼
      本地
      公開課

      手機要聞

      小米盧偉冰:REDMI K90 Max官方300元的內存補貼會盡量延續

      親子要聞

      管不住,一身的反骨

      數碼要聞

      官宣!追覓硅谷發布會定檔,4月27日-30日登陸北美

      本地新聞

      春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版