<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      蘋果光速撤回RLAX論文:用了谷歌TPU和阿里Qwen,作者中還有龐若鳴

      0
      分享至




      機器之心報道

      編輯:Panda

      昨天,蘋果一篇新論文在 arXiv 上公開然后又匆匆撤稿。原因不明。

      不過觀看其提交歷史,可以看到該論文在 12 月 6 日(UTC)就已被提交到 arXiv,到 11 號已經過去了 5 天,公開上線之后卻又被光速撤稿,這不由得地讓人好奇究竟發生了什么。



      不過好在該論文有一個 v1 版本已經被互聯網記錄,所以我們也能打開這篇論文一探究竟。

      論文中,蘋果揭示了他們開發的一個基于 TPU 的可擴展 RL 框架RLAX

      是的,你沒有看錯,不是 GPU,也不是蘋果自家的 M 系列芯片,而是谷歌的 TPU!還不止如此,這篇論文的研究中還用到了亞馬遜的云和中國的 Qwen 模型。



      • 論文標題:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
      • 論文地址:https://arxiv.org/pdf/2512.06392v1

      總之,這篇論文的貢獻還真不少。

      不過,在具體介紹這篇論文的研究成果之前,我們有必要先關注一下其作者名單。

      RLAX 的作者們



      RLAX 論文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和 Kelvin Zou。

      通訊作者則是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在蘋果擔任 Principal Engineer,現已經入職 Meta,成為了一位 AI 研究科學家。而 Cheng Leong 則是已在蘋果工作超過 13 年的老將,現任蘋果 AI Infra(人工智能基礎設施)主管。



      截圖自 LinkedIn

      此外,我們還在作者名單中看到了龐若鳴的名字。

      這位已經加入 Meta 的前蘋果 AI 負責人與其他六位作者的名字一起也出現了論文第一頁的最下方,并被描述為「已離開蘋果公司。他們在受雇于蘋果公司期間為這項工作做出了貢獻。」而且他們基本都是前幾個月才剛剛離職。

      簡單搜索一下這六位作者的履歷,可以看到:

      • Kelvin Zou 加入了 Meta
      • Hanzhi Zhou 已入職 OpenAI
      • Ye Ke 加入了 Anthropic
      • Floris Weers 以創始工程師身份加入了一家正處于隱身狀態的創業公司
      • Chong Wang 也加入了 Meta
      • Yi Zhang 現在 xAI 研究模型推理。

      RLAX:為了搶占 TPU 而生

      回到技術本身。強化學習(RL)對現代推理語言模型的重要性已無需多言,幾乎所有的頂尖模型都是基于 RL 的推理模型,包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。

      蘋果開發的RLAX 是一個專為在大規模分布式 TPU 集群上高效執行最先進 RL 算法而設計的強化學習框架



      極致解耦與搶占式調度

      RLAX 采用了參數-服務器(Parameter-Server)架構。主訓練器(Master Trainer)會定期將更新后的模型權重推送到參數服務器。與此同時,一組推理工作器(Inference Workers)會拉取最新權重,并生成新的采樣數據(Rollouts)。

      該團隊引入了一套系統級技術,將訓練器、推理工作器和驗證器(Verifiers)在邏輯上進行了分離。這種邏輯分離使得 RLAX 能夠靈活且獨立地為各個組件分配計算資源。

      最重要的是,RLAX 完全支持搶占式調度。這意味著當有更高優先級的任務(如在線推理負載)需要時,系統可以立即回收 TPU 資源,而不會導致訓練崩潰。

      靈活的策略支持

      RLAX 致力于解決大規模 LLM 后訓練 RL 過程中的關鍵挑戰,特別是如何高效處理 On-policy(在線策略)和 Off-policy(離線策略)RL。

      為此,RLAX 提供了可編程的配置選項。用戶可以強制執行「陳舊度界限」(Staleness Bounds),指定推理工作器拉取新權重的頻率,以及訓練器所能容忍的最大 Rollout 陳舊度。這使得用戶可以在 On-policy 和 Off-policy RL 之間靈活選擇。

      Oubliette:把代碼扔進地牢

      在驗證器(Verifiers)的設計上,蘋果工程師展現了一種特有的黑色幽默。

      驗證器需要針對訓練語料庫中每種編程語言進行代碼執行驗證。為了高效且確定性地驗證 Python 程序,他們將標準 Python 依賴項容器化。

      為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務,并將其命名為 「Oubliette」。

      「Oubliette」一詞源自法語,原意是指城堡中只有一個出口(通常是天花板上的活板門)的地下地牢,是專門用來「遺忘」囚犯的地方。

      蘋果工程師用這個詞來隱喻他們的無狀態驗證環境:代碼和測試數據被扔進這個基于 AWS Lambda 的「地牢」里,跑完測試、吐出結果后,整個環境即刻銷毀,就像這段代碼從未存在過一樣。

      表現如何?

      有趣的是,在實驗階段,我們看到了一個「縫合怪」的誕生:

      • 算力底座:如論文標題明示的那樣,不是自家芯片,也不是英偉達 GPU,而是谷歌的 TPU v5p(使用了 1024 張 TPU v5p 進行實驗)。
      • 驗證環境:為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務。
      • 基礎模型:他們用來驗證這套框架的模型,不是 Apple Intelligence 的底座,而是來自中國阿里團隊開源的 QwQ-32B。

      沒錯,蘋果的工程師,在美國用著谷歌的 TPU,調著亞馬遜的 Serverless 服務,去優化一個中國開源的 Qwen 模型。

      結果倒是非常亮眼。RLAX 僅用 12 小時 48 分鐘,在 1024 個 v5p TPU 上將 QwQ-32B 的 pass@8 準確率提高了12.8%,同時在訓練期間保持了對任務搶占的魯棒性。



      這種「美中技術大亂燉」的場景,在蘋果以往封閉的生態中簡直不可想象。這也側面印證了兩件事:第一,在 AI Infra 領域,實用主義正在壓倒門戶之見;第二,國產模型(尤其是 Qwen 和 DeepSeek)在代碼推理領域的統治力,已經強到連蘋果都忍不住要拿來當「磨刀石」。

      消失的 1.0:一個硬核的數值幽靈

      在 RLAX 論文的第 4 頁和第 9 頁,蘋果披露了一個足以讓系統工程師脊背發涼的 Bug。

      在強化學習中,On-policy(在線策略)訓練有一個理論基石:Importance Sampling ratio(重要性采樣比率)r (θ) 應該恒等于 1.0。因為行為策略和當前策略是完全一致的。

      但在 TPU 訓練實戰中,蘋果團隊發現:1.0 竟然不等于 1.0



      這個問題的根源在于 bfloat16 浮點數格式的非結合律(Non-associative) 特性。簡單來說,在計算機里 (a+b)+c 和 a+(b+c) 的結果可能存在微小的比特級差異。

      • 推理時:JAX 編譯器為了極致速度,會瘋狂融合算子(Kernel Fusion)。
      • 訓練時:為了反向傳播計算梯度,編譯器必須保留中間值,導致算子融合策略與推理時不同。

      這種計算順序的微小差異,在 bfloat16 下被放大,導致推理端算出的概率和訓練端算出的概率無法對齊,進而導致訓練崩潰。

      蘋果的解決方案非常暴力且有效:他們在訓練器中強制重算(Rematerialization),禁用了大部分激活值的保存,強行讓訓練端的計算圖去「模仿」推理端的計算順序。雖然犧牲了一點點速度,但消除了這個數值問題。

      對于正在從事 LLM Post-training 的工程師來說,這個 Debug 過程極具參考價值。

      雖然目前已被撤稿,但 RLAX 證明了蘋果在 AI 基礎設施上依然擁有世界頂級的工程能力。他們能駕馭最復雜的分布式系統,解決最底層的數值難題。

      但隨著許多重要人物分散到 Meta、OpenAI、Anthropic 和 xAI,這篇論文似乎也成為了蘋果 AI 這一階段的一個注腳。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      沒有哨子的亞歷山大,也就是一般全明星水平!

      沒有哨子的亞歷山大,也就是一般全明星水平!

      愛體育
      2025-12-14 22:11:07
      甘蔗搭它煮水,堪稱化痰高手!一清老痰、二潤肺養胃,三祛內火

      甘蔗搭它煮水,堪稱化痰高手!一清老痰、二潤肺養胃,三祛內火

      江江食研社
      2025-12-13 10:30:11
      霸王茶姬創始人張俊杰與“光伏女神”高海純辦婚禮,二人穿中式婚服,現場賓客人手一杯奶茶;6月已領證,男方辟謠曾有過婚姻

      霸王茶姬創始人張俊杰與“光伏女神”高海純辦婚禮,二人穿中式婚服,現場賓客人手一杯奶茶;6月已領證,男方辟謠曾有過婚姻

      揚子晚報
      2025-12-15 17:41:33
      美國說話不頂用!黎智英將老死獄中,特朗普下令:刪涉臺表述

      美國說話不頂用!黎智英將老死獄中,特朗普下令:刪涉臺表述

      離離言幾許
      2025-12-15 16:47:18
      何晴晚年太心酸:抗癌十年又中風,因檔案缺失無退休金,生活拮據

      何晴晚年太心酸:抗癌十年又中風,因檔案缺失無退休金,生活拮據

      西門老爹
      2025-12-15 15:42:12
      上萬只黃羊“偷渡”到我國,在蒙古待著不好嗎?為什么跑來內蒙?

      上萬只黃羊“偷渡”到我國,在蒙古待著不好嗎?為什么跑來內蒙?

      福建平子
      2025-12-06 12:34:52
      超越同齡鄭欽文!15歲小花橘子碗奪冠,創中國網球歷史

      超越同齡鄭欽文!15歲小花橘子碗奪冠,創中國網球歷史

      全景體育V
      2025-12-15 06:43:34
      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業生涯也全毀了

      這就是公開辱華的后果!取消冠軍頭銜只是開始,職業生涯也全毀了

      墨蘭史書
      2025-12-13 05:10:03
      20cm跌停,重組跌停,跳空跌停,閃崩跌停,今日9股地板收盤!

      20cm跌停,重組跌停,跳空跌停,閃崩跌停,今日9股地板收盤!

      財經智多星
      2025-12-15 16:26:51
      摩爾線程兩天市值蒸發近1000億

      摩爾線程兩天市值蒸發近1000億

      21世紀經濟報道
      2025-12-15 18:02:14
      王志文:不要對水平太低的人太好,認知水平越低,越不懂你的好

      王志文:不要對水平太低的人太好,認知水平越低,越不懂你的好

      杏花煙雨江南的碧園
      2025-12-03 13:10:03
      平頂山28歲女老師婚禮前墜亡!絕筆信戳穿死因,遺體晾曬無人管!

      平頂山28歲女老師婚禮前墜亡!絕筆信戳穿死因,遺體晾曬無人管!

      天天熱點見聞
      2025-12-14 08:19:11
      柬埔寨走錯路!泰柬沖突升級,柬首相不找中國調停,反讓美國介入

      柬埔寨走錯路!泰柬沖突升級,柬首相不找中國調停,反讓美國介入

      胖福的小木屋
      2025-12-14 23:27:37
      每月拿600,如今為法國14次奪冠,已成法國媳婦

      每月拿600,如今為法國14次奪冠,已成法國媳婦

      泠泠說史
      2025-12-15 18:33:01
      中國最危險的邊防區,7條軍犬已被咬死,士兵必須全副武裝才出門

      中國最危險的邊防區,7條軍犬已被咬死,士兵必須全副武裝才出門

      迷彩前沿
      2025-12-15 12:28:37
      47歲吳建豪暴瘦,1米8才100斤,尖嘴猴腮像老頭,健康狀況引擔憂

      47歲吳建豪暴瘦,1米8才100斤,尖嘴猴腮像老頭,健康狀況引擔憂

      法老不說教
      2025-12-02 23:15:23
      最后的瘋狂:許家印被抓捕的全部過程

      最后的瘋狂:許家印被抓捕的全部過程

      月光作箋a
      2025-12-09 08:38:58
      烏克蘭摧毀克里米亞S400系統!重創俄軍油庫與火車

      烏克蘭摧毀克里米亞S400系統!重創俄軍油庫與火車

      項鵬飛
      2025-12-15 18:17:50
      86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

      86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

      蕭竹輕語
      2025-12-05 17:38:25
      萬科公告:“深表歉意”

      萬科公告:“深表歉意”

      第一財經資訊
      2025-12-15 11:01:03
      2025-12-15 20:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11925文章數 142510關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      霸王茶姬創始人與"光伏二代"舉辦婚禮 兩人穿中式婚服

      頭條要聞

      霸王茶姬創始人與"光伏二代"舉辦婚禮 兩人穿中式婚服

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      本地
      親子
      旅游
      游戲
      公開課

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      親子要聞

      加碼“低敏”賽道!海普諾凱能立多全新升級,以科研實證回應“敏寶”家庭剛需

      旅游要聞

      伊春市2025—2026年冬季冰雪旅游系列活動(金林站)暨金林區第五屆森林冰雪歡樂季啟幕

      世界冠軍!FIFAe World Cup 2025?泰國勇奪移動端冠軍,波蘭摘得主機端桂冠

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 香港特级三A毛片免费观看| 中文字幕乱论| 久久综合香蕉国产蜜臀av| 久无码久无码av无码| 日本一本正道综合久久dvd | 无码人妻一区二区三区av| 少妇人妻邻居| 中文字幕乱码亚洲中文在线| 少妇被粗大的猛烈进出免费视频 | www.91xxx| 国产乱人妻精品秘?入口ktv-百度| 一本色道久久综合无码人妻| 大香蕉99| 蜜臂aV| 玉溪市| 欧美日产国产精品| 欧美自拍亚洲综合丝袜| 欧美 日韩 国产 成人 在线观看| www插插插无码免费视频网站| 2014AV天堂网| 亚洲成人综合av| 久久国产精品久久久久久| 欧美 日韩 国产 成人 在线观看| 制服丝袜无码| 中文字幕精品久久久人妻| 又大又长粗又爽又黄少妇视频| 国语精品国内自产视频| 亚洲欧美天堂| 亚洲欧美日韩精品色xxx| 国产在线无码视频一区二区三区| AV青青草| 九九精品在线观| 亚洲精品国产精品乱码桃花| 色婷婷av久久久久久久| 亚洲欧美日韩久久一区二区| 熟久久| 国产精品无码一区二区桃花视频| 黑人巨大精品欧美一区二区免费| 免费观看日本污污ww网站69| 同心县| 国产午夜福利在线机视频|