<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華人天才出走xAI:算力競賽已死,30美元解鎖AI自進化!

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】2026年2月,Grok的核心成員Jiayi Pan和Toby Pohlen相繼離開xAI。這似乎是某種預示,或許通往AGI的路不是算力規模,而是方法的突破。

      2月26日,xAI Grok 4團隊核心成員Jiayi Pan宣布離職


      在離職聲明中,他感謝了團隊所有成員,給馬斯克留足了面子。

      幾乎同一時間,Grok團隊的另一位核心研究員Toby Pohlen也宣布離職。

      他在X上陰陽Grok的工作機制,稱「沒有人能比你們更能熬夜」,然后@官方,公開叫板。


      兩人都是grok團隊的重要貢獻者,卻在48小時內相繼離開,這讓外界對xAI內部狀況產生了更多猜測。

      4年,Jiayi Pan從一個初學者成長為Grok 4的核心貢獻者,又選擇了一條與巨頭算力競賽截然不同的技術路徑。

      四年蛻變

      從AlphaGo迷弟到Grok 4貢獻者

      Jiayi Pan的AI之路始于2019年。

      他本科就讀于密歇根大學,獲得計算機科學與電子計算機工程雙學位,2023年畢業。

      那時,Jiayi Pan對RL還一無所知。據他自己回憶,當導師提到RL時,他下意識想到的還只是AlphaGo。


      2023年,他進入加州大學伯克利分校攻讀博士,研究語言模型與視覺/機器人學的結合。

      在Berkeley的早期項目中,他開發了SWE-Gym,這是一個將RL引入軟件工程領域的環境。


      代碼傳送門:https://github.com/SWE-Gym/SWE-Gym

      該項目基于SWE-bench數據集的2294個真實GitHub Issue,要求AI不僅能讀懂代碼,還要生成可通過測試的Patch。

      這為他后續的TinyZero研究——讓AI學會修正自己,奠定了基礎。

      2025年5月,Pan加入xAI的Reasoning團隊,4開發的核心成員之一。

      在xAI的9個月里,他參與了強化學習模塊的優化,推動模型從簡單預測向自我驗證演進。

      也正是在這段時間,他啟動了TinyZero項目。

      30美元的顛覆

      TinyZero「羞辱」巨頭

      2025年,Jiayi Pan在X上宣布開源TinyZero。

      這是一個僅需30美元訓練成本的3B參數模型,通過純強化學習實現了自我驗證和推理能力。


      代碼傳送門:https://github.com/Jiayi-Pan/TinyZero

      TinyZero基于Qwen2.5-3B基礎模型,使用veRL框架在Countdown和Multiplication等任務上訓練。

      實驗結果顯示,基礎模型在Countdown任務上的準確率從0%提升到RL訓練后的80%以上。

      這驗證了一個假設:DeepSeek R1-Zero展現的自我推理能力,不是靠海量參數堆出來的,而是可以通過純強化學習在小模型上復現的。

      通往高級推理能力的路徑,可能不需要5000億美元的基礎設施投資。

      同一時期,Sam Altman宣布Stargate計劃,計劃在4年內投資數千億美元建設AI基礎設施,與Microsoft和Oracle合作。

      但據報道,該項目因三方利益沖突而陷入停滯,到2025年底,一個數據中心都沒建成。


      相比之下,TinyZero的性價比拉滿。

      無需海量數據,無需龐大資金注入,純靠RL,在極低的算力下完成了關鍵突破。

      這或許也解釋了為什么Pan等核心成員相繼離職。

      當你已經驗證了一條不依賴巨頭資源的技術路徑,留在算力軍備競賽中還有意義嗎?

      出錯了!TinyZero的元認知覺醒

      TinyZero最引人注目的不是成本,而是它展現出的「元認知」特征。

      在Countdown游戲中,模型不僅會預測答案,還會在輸出最終答案前,進行完整的試錯與回溯。

      訓練日志顯示,模型會頻繁輸出 標簽,內含自我質疑的語句。

      例如,當計算路徑偏離目標時,它會自動生成類似「Wait, that's wrong」的中間思維鏈,并立即啟動新一輪推演。

      這種行為模式此前只在DeepSeek R1-Zero等大規模模型中觀察到。

      R1-Zero的訓練過程中曾出現「頓悟」式的能力躍遷,而這通常需要數周的迭代。

      但TinyZero在3B參數、30美元成本的條件下就復現了這一現象。


      Countdown任務中不同參數規模模型的PPO訓練critic score曲線。可以看到,即使是3B的小模型,經過強化學習訓練后也能展現出明顯的能力提升。

      這證明,Scaling Law負責堆砌知識廣度,而RL負責打通邏輯深度的最后一公里,兩者的結合不一定需要海量參數。

      隨著TinyZero的開源,這種自我糾錯能力不再是巨頭的專屬技術。

      任何開發者都可以在自己的垂直領域訓練出具備思考后再回答能力的AI。

      技術拼圖:自我進化的可能性

      回顧Jiayi Pan的研究脈絡,可以看到一條清晰的技術路徑:

      在Berkeley期間開發的SWE-Gym,將軟件工程基準SWE-bench轉化為強化學習環境,訓練AI修復真實代碼問題。這是讓AI學會改代碼。

      在xAI期間參與的Grok 4項目,將強化學習應用于大模型推理能力的提升,這讓AI學會推理。

      而TinyZero的開源,則證明了推理能力可以在小模型上通過純RL實現,這是讓AI學會自我糾錯。

      當這三塊拼圖組合在一起,一個更具想象力的可能性浮現:如果AI既能糾錯,又能改代碼,那它是否能優化自己的訓練代碼,從而實現某種程度的「自我進化」?

      而這,正是2025年發布的Humanity's Last Exam(HLE)基準所隱喻的場景。


      論文鏈接:https://arxiv.org/abs/2501.14249

      HLE是一個多模態、超高難度的AI評估基準。

      現有的MMLU等測試已被模型以90%+的準確率攻破,失去了區分度,而當AI能力持續提升。

      人類需要什么樣的「最后一道防線」來評估超級智能?

      Jiayi Pan的工作,無論是SWE-Gym、Grok 4還是TinyZero都在逼近這個問題的邊界。

      他已經離開了xAI,去向未知。但他留下的代碼和論文清晰地指向一個方向:

      高級AI能力的實現,可能不需要依賴巨頭的算力資源,而是可以通過方法論的創新在更小的規模上達成。

      這帶來了技術平權的可能,也帶來了風險擴散的隱憂。

      當任何開發者都能用30美元訓練出具備自我糾錯能力的模型,RL訓練的不穩定性、開源模型的倫理邊界、失控風險的防范......這些問題都沒有現成答案。

      或許,這確實是人類面對AI自我進化可能性的「最后一次考試」。

      而這場考試,是所有人都需要參與的開卷測驗。

      參考資料:

      https://www.linkedin.com/in/jiayi-pan-88964132a/https://x.com/jiayi_pirate/status/2026733283518906703?s=20

      https://x.com/TobyPhln/status/2027188868059926705?s=20

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      東極妙嚴
      2026-03-07 12:41:17
      雕和鷹誰更厲害?看完才知道,根本不是一個量級!

      雕和鷹誰更厲害?看完才知道,根本不是一個量級!

      心中的麥田
      2026-03-07 19:20:54
      剛入境就落網!普拉托五名中國男子因攜帶武器和爆炸物被捕

      剛入境就落網!普拉托五名中國男子因攜帶武器和爆炸物被捕

      意大利華人網0039
      2026-03-08 00:33:36
      勇士如何防亞歷山大;萊納德的胸與肩

      勇士如何防亞歷山大;萊納德的胸與肩

      張佳瑋寫字的地方
      2026-03-08 13:07:23
      伊朗老國王每天要性生活,三個老婆不夠用,讓警察綁架女子進宮

      伊朗老國王每天要性生活,三個老婆不夠用,讓警察綁架女子進宮

      老土歷史
      2026-03-08 10:10:07
      集體下挫!美聯儲降息,突傳大消息!

      集體下挫!美聯儲降息,突傳大消息!

      證券時報e公司
      2026-03-07 22:27:40
      秦牛正威回應退還彩禮:不用催,人家催的比你們急

      秦牛正威回應退還彩禮:不用催,人家催的比你們急

      韓小娛
      2026-03-07 20:24:21
      外媒:為何世界應關注中國兩會?

      外媒:為何世界應關注中國兩會?

      參考消息
      2026-03-07 11:45:13
      下午17點,中國女足vs朝鮮!賽前傳來2個好消息,感謝亞足聯助攻

      下午17點,中國女足vs朝鮮!賽前傳來2個好消息,感謝亞足聯助攻

      侃球熊弟
      2026-03-08 01:25:03
      宮魯鳴最大失誤:不是沒招李夢、晚招劉禹彤,而是用錯張子宇

      宮魯鳴最大失誤:不是沒招李夢、晚招劉禹彤,而是用錯張子宇

      卿子書
      2026-03-08 10:46:27
      中華人民共和國居民身份證上竟然還有隱藏彩蛋!滿滿的科技感和中國元素

      中華人民共和國居民身份證上竟然還有隱藏彩蛋!滿滿的科技感和中國元素

      閃電新聞
      2026-03-07 21:16:03
      俄媒:蘇萊曼尼繼任者是內鬼,確認哈梅內伊位置,會沒開完就溜了

      俄媒:蘇萊曼尼繼任者是內鬼,確認哈梅內伊位置,會沒開完就溜了

      蕭鑟科普解說
      2026-03-07 00:30:38
      國家衛健委主任:已有3300萬家庭領到育兒補貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

      國家衛健委主任:已有3300萬家庭領到育兒補貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

      紅星新聞
      2026-03-07 12:41:11
      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      中國警告:若安世半導體糾紛再升級 全球芯片供應或再度陷入危機

      中國警告:若安世半導體糾紛再升級 全球芯片供應或再度陷入危機

      cnBeta.COM
      2026-03-08 02:02:05
      遼寧男籃全力出擊!布羅金頓CBA首秀,趙繼偉漸入佳境,央視直播

      遼寧男籃全力出擊!布羅金頓CBA首秀,趙繼偉漸入佳境,央視直播

      體壇瞎白話
      2026-03-08 08:52:00
      女孩想"白嫖"大奔反被"白嫖"8天,背上一屁股債,還幫騙子賺了3萬

      女孩想"白嫖"大奔反被"白嫖"8天,背上一屁股債,還幫騙子賺了3萬

      觀世記
      2026-03-06 16:53:47
      朱亞文的“發言”在全網火了,馮遠征的兩會建議,含金量還在升

      朱亞文的“發言”在全網火了,馮遠征的兩會建議,含金量還在升

      好賢觀史記
      2026-03-07 09:51:22
      房東突然說要漲租3千,我口頭答應連夜跑路,3天后她腸子悔青

      房東突然說要漲租3千,我口頭答應連夜跑路,3天后她腸子悔青

      奶茶麥子
      2026-03-07 22:26:32
      打人時有多狂,求和解時就有多慫!看完太解氣!

      打人時有多狂,求和解時就有多慫!看完太解氣!

      風起見你
      2026-02-25 18:54:43
      2026-03-08 13:32:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14666文章數 66667關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      英國考慮向中東地區派遣航母 特朗普批評:不需要

      頭條要聞

      英國考慮向中東地區派遣航母 特朗普批評:不需要

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      家居
      手機
      旅游
      教育
      時尚

      家居要聞

      暖棕撞色 輕法奶油風

      手機要聞

      麒麟9030產能火力全開!華為Mate 80系列銷量激增:已突破400萬臺

      旅游要聞

      拍照打卡享消費優惠!貴安櫻花園有4個官方打卡點

      教育要聞

      父母留給子女最好的財富是什么?

      2026春夏一定要擁有的6只包,好看又百搭

      無障礙瀏覽 進入關懷版