<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      蘋果光速撤回RLAX論文:用了谷歌TPU和阿里Qwen,作者中還有龐若鳴

      0
      分享至




      機器之心報道

      編輯:Panda

      昨天,蘋果一篇新論文在 arXiv 上公開然后又匆匆撤稿。原因不明。

      不過觀看其提交歷史,可以看到該論文在 12 月 6 日(UTC)就已被提交到 arXiv,到 11 號已經過去了 5 天,公開上線之后卻又被光速撤稿,這不由得地讓人好奇究竟發生了什么。



      不過好在該論文有一個 v1 版本已經被互聯網記錄,所以我們也能打開這篇論文一探究竟。

      論文中,蘋果揭示了他們開發的一個基于 TPU 的可擴展 RL 框架RLAX

      是的,你沒有看錯,不是 GPU,也不是蘋果自家的 M 系列芯片,而是谷歌的 TPU!還不止如此,這篇論文的研究中還用到了亞馬遜的云和中國的 Qwen 模型。



      • 論文標題:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
      • 論文地址:https://arxiv.org/pdf/2512.06392v1

      總之,這篇論文的貢獻還真不少。

      不過,在具體介紹這篇論文的研究成果之前,我們有必要先關注一下其作者名單。

      RLAX 的作者們



      RLAX 論文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和 Kelvin Zou。

      通訊作者則是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在蘋果擔任 Principal Engineer,現已經入職 Meta,成為了一位 AI 研究科學家。而 Cheng Leong 則是已在蘋果工作超過 13 年的老將,現任蘋果 AI Infra(人工智能基礎設施)主管。



      截圖自 LinkedIn

      此外,我們還在作者名單中看到了龐若鳴的名字。

      這位已經加入 Meta 的前蘋果 AI 負責人與其他六位作者的名字一起也出現了論文第一頁的最下方,并被描述為「已離開蘋果公司。他們在受雇于蘋果公司期間為這項工作做出了貢獻?!苟宜麄兓径际乔皫讉€月才剛剛離職。

      簡單搜索一下這六位作者的履歷,可以看到:

      • Kelvin Zou 加入了 Meta
      • Hanzhi Zhou 已入職 OpenAI
      • Ye Ke 加入了 Anthropic
      • Floris Weers 以創始工程師身份加入了一家正處于隱身狀態的創業公司
      • Chong Wang 也加入了 Meta
      • Yi Zhang 現在 xAI 研究模型推理。

      RLAX:為了搶占 TPU 而生

      回到技術本身。強化學習(RL)對現代推理語言模型的重要性已無需多言,幾乎所有的頂尖模型都是基于 RL 的推理模型,包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。

      蘋果開發的RLAX 是一個專為在大規模分布式 TPU 集群上高效執行最先進 RL 算法而設計的強化學習框架



      極致解耦與搶占式調度

      RLAX 采用了參數-服務器(Parameter-Server)架構。主訓練器(Master Trainer)會定期將更新后的模型權重推送到參數服務器。與此同時,一組推理工作器(Inference Workers)會拉取最新權重,并生成新的采樣數據(Rollouts)。

      該團隊引入了一套系統級技術,將訓練器、推理工作器和驗證器(Verifiers)在邏輯上進行了分離。這種邏輯分離使得 RLAX 能夠靈活且獨立地為各個組件分配計算資源。

      最重要的是,RLAX 完全支持搶占式調度。這意味著當有更高優先級的任務(如在線推理負載)需要時,系統可以立即回收 TPU 資源,而不會導致訓練崩潰。

      靈活的策略支持

      RLAX 致力于解決大規模 LLM 后訓練 RL 過程中的關鍵挑戰,特別是如何高效處理 On-policy(在線策略)和 Off-policy(離線策略)RL。

      為此,RLAX 提供了可編程的配置選項。用戶可以強制執行「陳舊度界限」(Staleness Bounds),指定推理工作器拉取新權重的頻率,以及訓練器所能容忍的最大 Rollout 陳舊度。這使得用戶可以在 On-policy 和 Off-policy RL 之間靈活選擇。

      Oubliette:把代碼扔進地牢

      在驗證器(Verifiers)的設計上,蘋果工程師展現了一種特有的黑色幽默。

      驗證器需要針對訓練語料庫中每種編程語言進行代碼執行驗證。為了高效且確定性地驗證 Python 程序,他們將標準 Python 依賴項容器化。

      為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務,并將其命名為 「Oubliette」。

      「Oubliette」一詞源自法語,原意是指城堡中只有一個出口(通常是天花板上的活板門)的地下地牢,是專門用來「遺忘」囚犯的地方。

      蘋果工程師用這個詞來隱喻他們的無狀態驗證環境:代碼和測試數據被扔進這個基于 AWS Lambda 的「地牢」里,跑完測試、吐出結果后,整個環境即刻銷毀,就像這段代碼從未存在過一樣。

      表現如何?

      有趣的是,在實驗階段,我們看到了一個「縫合怪」的誕生:

      • 算力底座:如論文標題明示的那樣,不是自家芯片,也不是英偉達 GPU,而是谷歌的 TPU v5p(使用了 1024 張 TPU v5p 進行實驗)。
      • 驗證環境:為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務。
      • 基礎模型:他們用來驗證這套框架的模型,不是 Apple Intelligence 的底座,而是來自中國阿里團隊開源的 QwQ-32B。

      沒錯,蘋果的工程師,在美國用著谷歌的 TPU,調著亞馬遜的 Serverless 服務,去優化一個中國開源的 Qwen 模型。

      結果倒是非常亮眼。RLAX 僅用 12 小時 48 分鐘,在 1024 個 v5p TPU 上將 QwQ-32B 的 pass@8 準確率提高了12.8%,同時在訓練期間保持了對任務搶占的魯棒性。



      這種「美中技術大亂燉」的場景,在蘋果以往封閉的生態中簡直不可想象。這也側面印證了兩件事:第一,在 AI Infra 領域,實用主義正在壓倒門戶之見;第二,國產模型(尤其是 Qwen 和 DeepSeek)在代碼推理領域的統治力,已經強到連蘋果都忍不住要拿來當「磨刀石」。

      消失的 1.0:一個硬核的數值幽靈

      在 RLAX 論文的第 4 頁和第 9 頁,蘋果披露了一個足以讓系統工程師脊背發涼的 Bug。

      在強化學習中,On-policy(在線策略)訓練有一個理論基石:Importance Sampling ratio(重要性采樣比率)r (θ) 應該恒等于 1.0。因為行為策略和當前策略是完全一致的。

      但在 TPU 訓練實戰中,蘋果團隊發現:1.0 竟然不等于 1.0



      這個問題的根源在于 bfloat16 浮點數格式的非結合律(Non-associative) 特性。簡單來說,在計算機里 (a+b)+c 和 a+(b+c) 的結果可能存在微小的比特級差異。

      • 推理時:JAX 編譯器為了極致速度,會瘋狂融合算子(Kernel Fusion)。
      • 訓練時:為了反向傳播計算梯度,編譯器必須保留中間值,導致算子融合策略與推理時不同。

      這種計算順序的微小差異,在 bfloat16 下被放大,導致推理端算出的概率和訓練端算出的概率無法對齊,進而導致訓練崩潰。

      蘋果的解決方案非常暴力且有效:他們在訓練器中強制重算(Rematerialization),禁用了大部分激活值的保存,強行讓訓練端的計算圖去「模仿」推理端的計算順序。雖然犧牲了一點點速度,但消除了這個數值問題。

      對于正在從事 LLM Post-training 的工程師來說,這個 Debug 過程極具參考價值。

      雖然目前已被撤稿,但 RLAX 證明了蘋果在 AI 基礎設施上依然擁有世界頂級的工程能力。他們能駕馭最復雜的分布式系統,解決最底層的數值難題。

      但隨著許多重要人物分散到 Meta、OpenAI、Anthropic 和 xAI,這篇論文似乎也成為了蘋果 AI 這一階段的一個注腳。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      香港街頭偶遇郭碧婷向佐,兩人恩愛同框,向佐正常穿衣變清爽帥氣

      香港街頭偶遇郭碧婷向佐,兩人恩愛同框,向佐正常穿衣變清爽帥氣

      心靜物娛
      2025-12-16 13:53:09
      21歲女孩在泰國潛水時失蹤,4年后出現在寺廟別墅,和僧人舉止親密

      21歲女孩在泰國潛水時失蹤,4年后出現在寺廟別墅,和僧人舉止親密

      流螢敘情
      2025-09-11 18:03:10
      曾仕強教授:2026年是一道大坎,很多人恐怕撐不過去

      曾仕強教授:2026年是一道大坎,很多人恐怕撐不過去

      心靈短笛
      2025-12-03 10:08:19
      《老舅》結局:直到二美慘死,霍東風出手殺大濤,才知,崔國明為何得癌慘死

      《老舅》結局:直到二美慘死,霍東風出手殺大濤,才知,崔國明為何得癌慘死

      手工制作阿殲
      2025-12-16 03:37:56
      何晴葬禮現場曝光:兒子手捧骨灰惹淚目,許亞軍、廖京生皆未露面

      何晴葬禮現場曝光:兒子手捧骨灰惹淚目,許亞軍、廖京生皆未露面

      小蘭聊歷史
      2025-12-17 04:31:07
      NBA未來!最年輕的40分先生,正在改寫NBA歷史,震驚的全面能力!

      NBA未來!最年輕的40分先生,正在改寫NBA歷史,震驚的全面能力!

      林子說事
      2025-12-17 00:17:20
      妹子網購綠植開箱,發現兩只偷渡小貓,商家天塌了:我的咪呢?

      妹子網購綠植開箱,發現兩只偷渡小貓,商家天塌了:我的咪呢?

      Magic寵物社
      2025-12-16 20:10:03
      楊冪大學期間在北京電影學院上形體課的照片,還真是第一次看到

      楊冪大學期間在北京電影學院上形體課的照片,還真是第一次看到

      動物奇奇怪怪
      2025-12-17 01:21:21
      張本智和參拜戰犯神社+致敬高市早苗!博主:向日本獻媚,還會更過分

      張本智和參拜戰犯神社+致敬高市早苗!博主:向日本獻媚,還會更過分

      寒律
      2025-12-16 09:23:28
      從河南鄭東新區房價腰斬說起:一座城市的樓市沉浮與未來底氣

      從河南鄭東新區房價腰斬說起:一座城市的樓市沉浮與未來底氣

      阿離家居
      2025-12-16 09:05:35
      南銀法巴消費金融公司增資至60億元,增幅約15%

      南銀法巴消費金融公司增資至60億元,增幅約15%

      界面新聞
      2025-12-16 10:24:06
      湖南出現歷史上最荒唐法官!判男方凈身出戶,然后跟拿到全部資產的女方結婚

      湖南出現歷史上最荒唐法官!判男方凈身出戶,然后跟拿到全部資產的女方結婚

      爆角追蹤
      2025-11-23 11:25:00
      吳磊北京被偶遇,生圖下嘴巴突出像猩猩,雙手插兜一身痞氣

      吳磊北京被偶遇,生圖下嘴巴突出像猩猩,雙手插兜一身痞氣

      一娛三分地
      2025-12-16 19:46:01
      他回憶與韓先楚矛盾,說對方我行我素,不把軍區任何領導放在眼里

      他回憶與韓先楚矛盾,說對方我行我素,不把軍區任何領導放在眼里

      胖貓喵喵
      2025-12-03 17:35:22
      “窮鬼套餐”,漲價!?。?>
    </a>
        <h3>
      <a href=yoo研究所
      2025-12-16 10:30:49
      終于等到了!開拓者官宣楊瀚森!

      終于等到了!開拓者官宣楊瀚森!

      老曁科普
      2025-12-17 00:16:49
      男子感嘆老婆長得美,結婚10年依舊心動,網友:愛妻者風生水起

      男子感嘆老婆長得美,結婚10年依舊心動,網友:愛妻者風生水起

      梅子的小情緒
      2025-12-08 14:59:38
      揭秘投朝美軍:當演員,被分配三個老婆,稱給10億也不會離開朝鮮

      揭秘投朝美軍:當演員,被分配三個老婆,稱給10億也不會離開朝鮮

      歷史八卦社
      2023-12-22 17:35:51
      重磅數據發布!美股集體低開,油價急速跳水,黃金大漲

      重磅數據發布!美股集體低開,油價急速跳水,黃金大漲

      每日經濟新聞
      2025-12-16 23:32:20
      愛潑斯坦的玩具島:”球形口塞”玩具曝光,收藏大量特朗普主題照

      愛潑斯坦的玩具島:”球形口塞”玩具曝光,收藏大量特朗普主題照

      遁走的兩輪
      2025-12-16 08:44:38
      2025-12-17 05:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11934文章數 142511關注度
      往期回顧 全部

      科技要聞

      360:玉紅惡意詆毀周鴻祎 將追究其法律責任

      頭條要聞

      美國向烏下最后通牒:現在不接受 以后沒那么慷慨了

      頭條要聞

      美國向烏下最后通牒:現在不接受 以后沒那么慷慨了

      體育要聞

      楊瀚森18+10首次兩雙 關鍵攻防統治G聯賽

      娛樂要聞

      《雙軌》遭網友舉報,稱劇情三觀不正

      財經要聞

      浙金中心暴雷始末:祥源控股設計的騙局?

      汽車要聞

      打造全域安全2.0,吉利的新“長征”

      態度原創

      藝術
      家居
      房產
      健康
      親子

      藝術要聞

      16位畫家17幅靜物花卉,你喜歡哪位的呢?

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      房產要聞

      6.66億摘地,海南封關大動作,千畝海澄新城震撼登場

      這些新療法,讓化療不再那么痛苦

      親子要聞

      為什么媽媽帶大的孩子比奶奶帶大的孩子更聰明?原因很現實

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产美女久久久亚洲综合| 日本精品毛片| 国产亚洲欧美日韩俺去了| 国产AV一区二区三区精品| 年轻女教师hd中字3| 韩国无码av片在线观看网站| 人妻天天爽爽网| 久久香蕉国产线看观看猫咪av| 人妻 日韩精品 中文字幕| 一卡二卡AV| 久久夜色撩人精品国产av| 国产在线无码视频一区二区三区| 浦江县| 制服丝袜在线云霸| 久久天天躁狠狠躁夜夜2020老熟妇| 18禁美女裸身无遮挡免费网站| 巨鹿县| 丝袜美腿视频一区二区三区| 风间由美性色一区二区三区| 人妻香蕉网| 一区二区三区欧美| 国产 麻豆 日韩 欧美 久久| 国产综合内射日韩久| 国产suv精品一区二区6| 伊人毛片| 18禁久久久久久久| 亚洲精品乱码久久久久久金桔影视| 久久久精品人妻一区二区三区四| 欧美福利导航| 人妻久久久一区二区三区| 美女扒开尿口让男人桶| 无遮挡粉嫩小泬久久久久久久| 成人A在线播放| 成人欧美日韩一区二区三区| 欧美日韩精品久久久免费观看| 亚洲18禁私人影院| 成人中文字幕无码| 久久伊人中文字幕| 在线成人av| 国内精品久久久久影院一蜜桃| 黄网免费观看|