![]()
新智元報道
編輯:傾傾
【新智元導讀】2026年2月,Grok的核心成員Jiayi Pan和Toby Pohlen相繼離開xAI。這似乎是某種預示,或許通往AGI的路不是算力規模,而是方法的突破。
2月26日,xAI Grok 4團隊核心成員Jiayi Pan宣布離職
![]()
在離職聲明中,他感謝了團隊所有成員,給馬斯克留足了面子。
幾乎同一時間,Grok團隊的另一位核心研究員Toby Pohlen也宣布離職。
他在X上陰陽Grok的工作機制,稱「沒有人能比你們更能熬夜」,然后@官方,公開叫板。
![]()
兩人都是grok團隊的重要貢獻者,卻在48小時內相繼離開,這讓外界對xAI內部狀況產生了更多猜測。
4年,Jiayi Pan從一個初學者成長為Grok 4的核心貢獻者,又選擇了一條與巨頭算力競賽截然不同的技術路徑。
四年蛻變
從AlphaGo迷弟到Grok 4貢獻者
Jiayi Pan的AI之路始于2019年。
他本科就讀于密歇根大學,獲得計算機科學與電子計算機工程雙學位,2023年畢業。
那時,Jiayi Pan對RL還一無所知。據他自己回憶,當導師提到RL時,他下意識想到的還只是AlphaGo。
![]()
2023年,他進入加州大學伯克利分校攻讀博士,研究語言模型與視覺/機器人學的結合。
在Berkeley的早期項目中,他開發了SWE-Gym,這是一個將RL引入軟件工程領域的環境。
![]()
代碼傳送門:https://github.com/SWE-Gym/SWE-Gym
該項目基于SWE-bench數據集的2294個真實GitHub Issue,要求AI不僅能讀懂代碼,還要生成可通過測試的Patch。
這為他后續的TinyZero研究——讓AI學會修正自己,奠定了基礎。
2025年5月,Pan加入xAI的Reasoning團隊,4開發的核心成員之一。
在xAI的9個月里,他參與了強化學習模塊的優化,推動模型從簡單預測向自我驗證演進。
也正是在這段時間,他啟動了TinyZero項目。
30美元的顛覆
TinyZero「羞辱」巨頭
2025年,Jiayi Pan在X上宣布開源TinyZero。
這是一個僅需30美元訓練成本的3B參數模型,通過純強化學習實現了自我驗證和推理能力。
![]()
代碼傳送門:https://github.com/Jiayi-Pan/TinyZero
TinyZero基于Qwen2.5-3B基礎模型,使用veRL框架在Countdown和Multiplication等任務上訓練。
實驗結果顯示,基礎模型在Countdown任務上的準確率從0%提升到RL訓練后的80%以上。
這驗證了一個假設:DeepSeek R1-Zero展現的自我推理能力,不是靠海量參數堆出來的,而是可以通過純強化學習在小模型上復現的。
通往高級推理能力的路徑,可能不需要5000億美元的基礎設施投資。
同一時期,Sam Altman宣布Stargate計劃,計劃在4年內投資數千億美元建設AI基礎設施,與Microsoft和Oracle合作。
但據報道,該項目因三方利益沖突而陷入停滯,到2025年底,一個數據中心都沒建成。
![]()
相比之下,TinyZero的性價比拉滿。
無需海量數據,無需龐大資金注入,純靠RL,在極低的算力下完成了關鍵突破。
這或許也解釋了為什么Pan等核心成員相繼離職。
當你已經驗證了一條不依賴巨頭資源的技術路徑,留在算力軍備競賽中還有意義嗎?
出錯了!TinyZero的元認知覺醒
TinyZero最引人注目的不是成本,而是它展現出的「元認知」特征。
在Countdown游戲中,模型不僅會預測答案,還會在輸出最終答案前,進行完整的試錯與回溯。
訓練日志顯示,模型會頻繁輸出 標簽,內含自我質疑的語句。
例如,當計算路徑偏離目標時,它會自動生成類似「Wait, that's wrong」的中間思維鏈,并立即啟動新一輪推演。
這種行為模式此前只在DeepSeek R1-Zero等大規模模型中觀察到。
R1-Zero的訓練過程中曾出現「頓悟」式的能力躍遷,而這通常需要數周的迭代。
但TinyZero在3B參數、30美元成本的條件下就復現了這一現象。
![]()
Countdown任務中不同參數規模模型的PPO訓練critic score曲線。可以看到,即使是3B的小模型,經過強化學習訓練后也能展現出明顯的能力提升。
這證明,Scaling Law負責堆砌知識廣度,而RL負責打通邏輯深度的最后一公里,兩者的結合不一定需要海量參數。
隨著TinyZero的開源,這種自我糾錯能力不再是巨頭的專屬技術。
任何開發者都可以在自己的垂直領域訓練出具備思考后再回答能力的AI。
技術拼圖:自我進化的可能性
回顧Jiayi Pan的研究脈絡,可以看到一條清晰的技術路徑:
在Berkeley期間開發的SWE-Gym,將軟件工程基準SWE-bench轉化為強化學習環境,訓練AI修復真實代碼問題。這是讓AI學會改代碼。
在xAI期間參與的Grok 4項目,將強化學習應用于大模型推理能力的提升,這讓AI學會推理。
而TinyZero的開源,則證明了推理能力可以在小模型上通過純RL實現,這是讓AI學會自我糾錯。
當這三塊拼圖組合在一起,一個更具想象力的可能性浮現:如果AI既能糾錯,又能改代碼,那它是否能優化自己的訓練代碼,從而實現某種程度的「自我進化」?
而這,正是2025年發布的Humanity's Last Exam(HLE)基準所隱喻的場景。
![]()
論文鏈接:https://arxiv.org/abs/2501.14249
HLE是一個多模態、超高難度的AI評估基準。
現有的MMLU等測試已被模型以90%+的準確率攻破,失去了區分度,而當AI能力持續提升。
人類需要什么樣的「最后一道防線」來評估超級智能?
Jiayi Pan的工作,無論是SWE-Gym、Grok 4還是TinyZero都在逼近這個問題的邊界。
他已經離開了xAI,去向未知。但他留下的代碼和論文清晰地指向一個方向:
高級AI能力的實現,可能不需要依賴巨頭的算力資源,而是可以通過方法論的創新在更小的規模上達成。
這帶來了技術平權的可能,也帶來了風險擴散的隱憂。
當任何開發者都能用30美元訓練出具備自我糾錯能力的模型,RL訓練的不穩定性、開源模型的倫理邊界、失控風險的防范......這些問題都沒有現成答案。
或許,這確實是人類面對AI自我進化可能性的「最后一次考試」。
而這場考試,是所有人都需要參與的開卷測驗。
參考資料:
https://www.linkedin.com/in/jiayi-pan-88964132a/https://x.com/jiayi_pirate/status/2026733283518906703?s=20
https://x.com/TobyPhln/status/2027188868059926705?s=20
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.