![]()
機器之心報道
編輯:Panda
昨天,蘋果一篇新論文在 arXiv 上公開然后又匆匆撤稿。原因不明。
不過觀看其提交歷史,可以看到該論文在 12 月 6 日(UTC)就已被提交到 arXiv,到 11 號已經過去了 5 天,公開上線之后卻又被光速撤稿,這不由得地讓人好奇究竟發生了什么。
![]()
不過好在該論文有一個 v1 版本已經被互聯網記錄,所以我們也能打開這篇論文一探究竟。
論文中,蘋果揭示了他們開發的一個基于 TPU 的可擴展 RL 框架RLAX
是的,你沒有看錯,不是 GPU,也不是蘋果自家的 M 系列芯片,而是谷歌的 TPU!還不止如此,這篇論文的研究中還用到了亞馬遜的云和中國的 Qwen 模型。
![]()
- 論文標題:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
- 論文地址:https://arxiv.org/pdf/2512.06392v1
總之,這篇論文的貢獻還真不少。
不過,在具體介紹這篇論文的研究成果之前,我們有必要先關注一下其作者名單。
RLAX 的作者們
![]()
RLAX 論文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和 Kelvin Zou。
通訊作者則是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在蘋果擔任 Principal Engineer,現已經入職 Meta,成為了一位 AI 研究科學家。而 Cheng Leong 則是已在蘋果工作超過 13 年的老將,現任蘋果 AI Infra(人工智能基礎設施)主管。
![]()
截圖自 LinkedIn
此外,我們還在作者名單中看到了龐若鳴的名字。
這位已經加入 Meta 的前蘋果 AI 負責人與其他六位作者的名字一起也出現了論文第一頁的最下方,并被描述為「已離開蘋果公司。他們在受雇于蘋果公司期間為這項工作做出了貢獻。」而且他們基本都是前幾個月才剛剛離職。
簡單搜索一下這六位作者的履歷,可以看到:
- Kelvin Zou 加入了 Meta
- Hanzhi Zhou 已入職 OpenAI
- Ye Ke 加入了 Anthropic
- Floris Weers 以創始工程師身份加入了一家正處于隱身狀態的創業公司
- Chong Wang 也加入了 Meta
- Yi Zhang 現在 xAI 研究模型推理。
RLAX:為了搶占 TPU 而生
回到技術本身。強化學習(RL)對現代推理語言模型的重要性已無需多言,幾乎所有的頂尖模型都是基于 RL 的推理模型,包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。
蘋果開發的RLAX 是一個專為在大規模分布式 TPU 集群上高效執行最先進 RL 算法而設計的強化學習框架
![]()
極致解耦與搶占式調度
RLAX 采用了參數-服務器(Parameter-Server)架構。主訓練器(Master Trainer)會定期將更新后的模型權重推送到參數服務器。與此同時,一組推理工作器(Inference Workers)會拉取最新權重,并生成新的采樣數據(Rollouts)。
該團隊引入了一套系統級技術,將訓練器、推理工作器和驗證器(Verifiers)在邏輯上進行了分離。這種邏輯分離使得 RLAX 能夠靈活且獨立地為各個組件分配計算資源。
最重要的是,RLAX 完全支持搶占式調度。這意味著當有更高優先級的任務(如在線推理負載)需要時,系統可以立即回收 TPU 資源,而不會導致訓練崩潰。
靈活的策略支持
RLAX 致力于解決大規模 LLM 后訓練 RL 過程中的關鍵挑戰,特別是如何高效處理 On-policy(在線策略)和 Off-policy(離線策略)RL。
為此,RLAX 提供了可編程的配置選項。用戶可以強制執行「陳舊度界限」(Staleness Bounds),指定推理工作器拉取新權重的頻率,以及訓練器所能容忍的最大 Rollout 陳舊度。這使得用戶可以在 On-policy 和 Off-policy RL 之間靈活選擇。
Oubliette:把代碼扔進地牢
在驗證器(Verifiers)的設計上,蘋果工程師展現了一種特有的黑色幽默。
驗證器需要針對訓練語料庫中每種編程語言進行代碼執行驗證。為了高效且確定性地驗證 Python 程序,他們將標準 Python 依賴項容器化。
為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務,并將其命名為 「Oubliette」。
「Oubliette」一詞源自法語,原意是指城堡中只有一個出口(通常是天花板上的活板門)的地下地牢,是專門用來「遺忘」囚犯的地方。
蘋果工程師用這個詞來隱喻他們的無狀態驗證環境:代碼和測試數據被扔進這個基于 AWS Lambda 的「地牢」里,跑完測試、吐出結果后,整個環境即刻銷毀,就像這段代碼從未存在過一樣。
表現如何?
有趣的是,在實驗階段,我們看到了一個「縫合怪」的誕生:
- 算力底座:如論文標題明示的那樣,不是自家芯片,也不是英偉達 GPU,而是谷歌的 TPU v5p(使用了 1024 張 TPU v5p 進行實驗)。
- 驗證環境:為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務。
- 基礎模型:他們用來驗證這套框架的模型,不是 Apple Intelligence 的底座,而是來自中國阿里團隊開源的 QwQ-32B。
沒錯,蘋果的工程師,在美國用著谷歌的 TPU,調著亞馬遜的 Serverless 服務,去優化一個中國開源的 Qwen 模型。
結果倒是非常亮眼。RLAX 僅用 12 小時 48 分鐘,在 1024 個 v5p TPU 上將 QwQ-32B 的 pass@8 準確率提高了12.8%,同時在訓練期間保持了對任務搶占的魯棒性。
![]()
這種「美中技術大亂燉」的場景,在蘋果以往封閉的生態中簡直不可想象。這也側面印證了兩件事:第一,在 AI Infra 領域,實用主義正在壓倒門戶之見;第二,國產模型(尤其是 Qwen 和 DeepSeek)在代碼推理領域的統治力,已經強到連蘋果都忍不住要拿來當「磨刀石」。
消失的 1.0:一個硬核的數值幽靈
在 RLAX 論文的第 4 頁和第 9 頁,蘋果披露了一個足以讓系統工程師脊背發涼的 Bug。
在強化學習中,On-policy(在線策略)訓練有一個理論基石:Importance Sampling ratio(重要性采樣比率)r (θ) 應該恒等于 1.0。因為行為策略和當前策略是完全一致的。
但在 TPU 訓練實戰中,蘋果團隊發現:1.0 竟然不等于 1.0
![]()
這個問題的根源在于 bfloat16 浮點數格式的非結合律(Non-associative) 特性。簡單來說,在計算機里 (a+b)+c 和 a+(b+c) 的結果可能存在微小的比特級差異。
- 推理時:JAX 編譯器為了極致速度,會瘋狂融合算子(Kernel Fusion)。
- 訓練時:為了反向傳播計算梯度,編譯器必須保留中間值,導致算子融合策略與推理時不同。
這種計算順序的微小差異,在 bfloat16 下被放大,導致推理端算出的概率和訓練端算出的概率無法對齊,進而導致訓練崩潰。
蘋果的解決方案非常暴力且有效:他們在訓練器中強制重算(Rematerialization),禁用了大部分激活值的保存,強行讓訓練端的計算圖去「模仿」推理端的計算順序。雖然犧牲了一點點速度,但消除了這個數值問題。
對于正在從事 LLM Post-training 的工程師來說,這個 Debug 過程極具參考價值。
雖然目前已被撤稿,但 RLAX 證明了蘋果在 AI 基礎設施上依然擁有世界頂級的工程能力。他們能駕馭最復雜的分布式系統,解決最底層的數值難題。
但隨著許多重要人物分散到 Meta、OpenAI、Anthropic 和 xAI,這篇論文似乎也成為了蘋果 AI 這一階段的一個注腳。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.