網易首頁 > 網易號 > 正文申請入駐

蘋果光速撤回RLAX論文:用了谷歌TPU和阿里Qwen，作者中還有龐若鳴

2025-12-15 15:39:25　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

昨天，蘋果一篇新論文在 arXiv 上公開然后又匆匆撤稿。原因不明。

不過觀看其提交歷史，可以看到該論文在 12 月 6 日（UTC）就已被提交到 arXiv，到 11 號已經過去了 5 天，公開上線之后卻又被光速撤稿，這不由得地讓人好奇究竟發生了什么。

不過好在該論文有一個 v1 版本已經被互聯網記錄，所以我們也能打開這篇論文一探究竟。

論文中，蘋果揭示了他們開發的一個基于 TPU 的可擴展 RL 框架RLAX

是的，你沒有看錯，不是 GPU，也不是蘋果自家的 M 系列芯片，而是谷歌的 TPU！還不止如此，這篇論文的研究中還用到了亞馬遜的云和中國的 Qwen 模型。

論文標題：RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
論文地址：https://arxiv.org/pdf/2512.06392v1

總之，這篇論文的貢獻還真不少。

不過，在具體介紹這篇論文的研究成果之前，我們有必要先關注一下其作者名單。

RLAX 的作者們

RLAX 論文共有四名核心作者：Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和 Kelvin Zou。

通訊作者則是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在蘋果擔任 Principal Engineer，現已經入職 Meta，成為了一位 AI 研究科學家。而 Cheng Leong 則是已在蘋果工作超過 13 年的老將，現任蘋果 AI Infra（人工智能基礎設施）主管。

截圖自 LinkedIn

此外，我們還在作者名單中看到了龐若鳴的名字。

這位已經加入 Meta 的前蘋果 AI 負責人與其他六位作者的名字一起也出現了論文第一頁的最下方，并被描述為「已離開蘋果公司。他們在受雇于蘋果公司期間為這項工作做出了貢獻?！苟宜麄兓径际乔皫讉€月才剛剛離職。

簡單搜索一下這六位作者的履歷，可以看到：

Kelvin Zou 加入了 Meta
Hanzhi Zhou 已入職 OpenAI
Ye Ke 加入了 Anthropic
Floris Weers 以創始工程師身份加入了一家正處于隱身狀態的創業公司
Chong Wang 也加入了 Meta
Yi Zhang 現在 xAI 研究模型推理。

RLAX：為了搶占 TPU 而生

回到技術本身。強化學習（RL）對現代推理語言模型的重要性已無需多言，幾乎所有的頂尖模型都是基于 RL 的推理模型，包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。

蘋果開發的RLAX 是一個專為在大規模分布式 TPU 集群上高效執行最先進 RL 算法而設計的強化學習框架

極致解耦與搶占式調度

RLAX 采用了參數-服務器（Parameter-Server）架構。主訓練器（Master Trainer）會定期將更新后的模型權重推送到參數服務器。與此同時，一組推理工作器（Inference Workers）會拉取最新權重，并生成新的采樣數據（Rollouts）。

該團隊引入了一套系統級技術，將訓練器、推理工作器和驗證器（Verifiers）在邏輯上進行了分離。這種邏輯分離使得 RLAX 能夠靈活且獨立地為各個組件分配計算資源。

最重要的是，RLAX 完全支持搶占式調度。這意味著當有更高優先級的任務（如在線推理負載）需要時，系統可以立即回收 TPU 資源，而不會導致訓練崩潰。

靈活的策略支持

RLAX 致力于解決大規模 LLM 后訓練 RL 過程中的關鍵挑戰，特別是如何高效處理 On-policy（在線策略）和 Off-policy（離線策略）RL。

為此，RLAX 提供了可編程的配置選項。用戶可以強制執行「陳舊度界限」（Staleness Bounds），指定推理工作器拉取新權重的頻率，以及訓練器所能容忍的最大 Rollout 陳舊度。這使得用戶可以在 On-policy 和 Off-policy RL 之間靈活選擇。

Oubliette：把代碼扔進地牢

在驗證器（Verifiers）的設計上，蘋果工程師展現了一種特有的黑色幽默。

驗證器需要針對訓練語料庫中每種編程語言進行代碼執行驗證。為了高效且確定性地驗證 Python 程序，他們將標準 Python 依賴項容器化。

為了跑通大規模代碼測試，他們調用了亞馬遜的 AWS Lambda 服務，并將其命名為「Oubliette」。

「Oubliette」一詞源自法語，原意是指城堡中只有一個出口（通常是天花板上的活板門）的地下地牢，是專門用來「遺忘」囚犯的地方。

蘋果工程師用這個詞來隱喻他們的無狀態驗證環境：代碼和測試數據被扔進這個基于 AWS Lambda 的「地牢」里，跑完測試、吐出結果后，整個環境即刻銷毀，就像這段代碼從未存在過一樣。

表現如何？

有趣的是，在實驗階段，我們看到了一個「縫合怪」的誕生：

算力底座：如論文標題明示的那樣，不是自家芯片，也不是英偉達 GPU，而是谷歌的 TPU v5p（使用了 1024 張 TPU v5p 進行實驗）。
驗證環境：為了跑通大規模代碼測試，他們調用了亞馬遜的 AWS Lambda 服務。
基礎模型：他們用來驗證這套框架的模型，不是 Apple Intelligence 的底座，而是來自中國阿里團隊開源的 QwQ-32B。

沒錯，蘋果的工程師，在美國用著谷歌的 TPU，調著亞馬遜的 Serverless 服務，去優化一個中國開源的 Qwen 模型。

結果倒是非常亮眼。RLAX 僅用 12 小時 48 分鐘，在 1024 個 v5p TPU 上將 QwQ-32B 的 pass@8 準確率提高了12.8%，同時在訓練期間保持了對任務搶占的魯棒性。

這種「美中技術大亂燉」的場景，在蘋果以往封閉的生態中簡直不可想象。這也側面印證了兩件事：第一，在 AI Infra 領域，實用主義正在壓倒門戶之見；第二，國產模型（尤其是 Qwen 和 DeepSeek）在代碼推理領域的統治力，已經強到連蘋果都忍不住要拿來當「磨刀石」。

消失的 1.0：一個硬核的數值幽靈

在 RLAX 論文的第 4 頁和第 9 頁，蘋果披露了一個足以讓系統工程師脊背發涼的 Bug。

在強化學習中，On-policy（在線策略）訓練有一個理論基石：Importance Sampling ratio（重要性采樣比率）r (θ) 應該恒等于 1.0。因為行為策略和當前策略是完全一致的。

但在 TPU 訓練實戰中，蘋果團隊發現：1.0 竟然不等于 1.0

這個問題的根源在于 bfloat16 浮點數格式的非結合律（Non-associative）特性。簡單來說，在計算機里 (a+b)+c 和 a+(b+c) 的結果可能存在微小的比特級差異。

推理時：JAX 編譯器為了極致速度，會瘋狂融合算子（Kernel Fusion）。
訓練時：為了反向傳播計算梯度，編譯器必須保留中間值，導致算子融合策略與推理時不同。

這種計算順序的微小差異，在 bfloat16 下被放大，導致推理端算出的概率和訓練端算出的概率無法對齊，進而導致訓練崩潰。

蘋果的解決方案非常暴力且有效：他們在訓練器中強制重算（Rematerialization），禁用了大部分激活值的保存，強行讓訓練端的計算圖去「模仿」推理端的計算順序。雖然犧牲了一點點速度，但消除了這個數值問題。

對于正在從事 LLM Post-training 的工程師來說，這個 Debug 過程極具參考價值。

雖然目前已被撤稿，但 RLAX 證明了蘋果在 AI 基礎設施上依然擁有世界頂級的工程能力。他們能駕馭最復雜的分布式系統，解決最底層的數值難題。

但隨著許多重要人物分散到 Meta、OpenAI、Anthropic 和 xAI，這篇論文似乎也成為了蘋果 AI 這一階段的一個注腳。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.