<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      蘋果光速撤回RLAX論文:用了谷歌TPU和阿里Qwen,作者中還有龐若鳴

      0
      分享至




      機器之心報道

      編輯:Panda

      昨天,蘋果一篇新論文在 arXiv 上公開然后又匆匆撤稿。原因不明。

      不過觀看其提交歷史,可以看到該論文在 12 月 6 日(UTC)就已被提交到 arXiv,到 11 號已經過去了 5 天,公開上線之后卻又被光速撤稿,這不由得地讓人好奇究竟發生了什么。



      不過好在該論文有一個 v1 版本已經被互聯網記錄,所以我們也能打開這篇論文一探究竟。

      論文中,蘋果揭示了他們開發的一個基于 TPU 的可擴展 RL 框架RLAX

      是的,你沒有看錯,不是 GPU,也不是蘋果自家的 M 系列芯片,而是谷歌的 TPU!還不止如此,這篇論文的研究中還用到了亞馬遜的云和中國的 Qwen 模型。



      • 論文標題:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
      • 論文地址:https://arxiv.org/pdf/2512.06392v1

      總之,這篇論文的貢獻還真不少。

      不過,在具體介紹這篇論文的研究成果之前,我們有必要先關注一下其作者名單。

      RLAX 的作者們



      RLAX 論文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和 Kelvin Zou。

      通訊作者則是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在蘋果擔任 Principal Engineer,現已經入職 Meta,成為了一位 AI 研究科學家。而 Cheng Leong 則是已在蘋果工作超過 13 年的老將,現任蘋果 AI Infra(人工智能基礎設施)主管。



      截圖自 LinkedIn

      此外,我們還在作者名單中看到了龐若鳴的名字。

      這位已經加入 Meta 的前蘋果 AI 負責人與其他六位作者的名字一起也出現了論文第一頁的最下方,并被描述為「已離開蘋果公司。他們在受雇于蘋果公司期間為這項工作做出了貢獻。」而且他們基本都是前幾個月才剛剛離職。

      簡單搜索一下這六位作者的履歷,可以看到:

      • Kelvin Zou 加入了 Meta
      • Hanzhi Zhou 已入職 OpenAI
      • Ye Ke 加入了 Anthropic
      • Floris Weers 以創始工程師身份加入了一家正處于隱身狀態的創業公司
      • Chong Wang 也加入了 Meta
      • Yi Zhang 現在 xAI 研究模型推理。

      RLAX:為了搶占 TPU 而生

      回到技術本身。強化學習(RL)對現代推理語言模型的重要性已無需多言,幾乎所有的頂尖模型都是基于 RL 的推理模型,包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。

      蘋果開發的RLAX 是一個專為在大規模分布式 TPU 集群上高效執行最先進 RL 算法而設計的強化學習框架



      極致解耦與搶占式調度

      RLAX 采用了參數-服務器(Parameter-Server)架構。主訓練器(Master Trainer)會定期將更新后的模型權重推送到參數服務器。與此同時,一組推理工作器(Inference Workers)會拉取最新權重,并生成新的采樣數據(Rollouts)。

      該團隊引入了一套系統級技術,將訓練器、推理工作器和驗證器(Verifiers)在邏輯上進行了分離。這種邏輯分離使得 RLAX 能夠靈活且獨立地為各個組件分配計算資源。

      最重要的是,RLAX 完全支持搶占式調度。這意味著當有更高優先級的任務(如在線推理負載)需要時,系統可以立即回收 TPU 資源,而不會導致訓練崩潰。

      靈活的策略支持

      RLAX 致力于解決大規模 LLM 后訓練 RL 過程中的關鍵挑戰,特別是如何高效處理 On-policy(在線策略)和 Off-policy(離線策略)RL。

      為此,RLAX 提供了可編程的配置選項。用戶可以強制執行「陳舊度界限」(Staleness Bounds),指定推理工作器拉取新權重的頻率,以及訓練器所能容忍的最大 Rollout 陳舊度。這使得用戶可以在 On-policy 和 Off-policy RL 之間靈活選擇。

      Oubliette:把代碼扔進地牢

      在驗證器(Verifiers)的設計上,蘋果工程師展現了一種特有的黑色幽默。

      驗證器需要針對訓練語料庫中每種編程語言進行代碼執行驗證。為了高效且確定性地驗證 Python 程序,他們將標準 Python 依賴項容器化。

      為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務,并將其命名為 「Oubliette」。

      「Oubliette」一詞源自法語,原意是指城堡中只有一個出口(通常是天花板上的活板門)的地下地牢,是專門用來「遺忘」囚犯的地方。

      蘋果工程師用這個詞來隱喻他們的無狀態驗證環境:代碼和測試數據被扔進這個基于 AWS Lambda 的「地牢」里,跑完測試、吐出結果后,整個環境即刻銷毀,就像這段代碼從未存在過一樣。

      表現如何?

      有趣的是,在實驗階段,我們看到了一個「縫合怪」的誕生:

      • 算力底座:如論文標題明示的那樣,不是自家芯片,也不是英偉達 GPU,而是谷歌的 TPU v5p(使用了 1024 張 TPU v5p 進行實驗)。
      • 驗證環境:為了跑通大規模代碼測試,他們調用了亞馬遜的 AWS Lambda 服務。
      • 基礎模型:他們用來驗證這套框架的模型,不是 Apple Intelligence 的底座,而是來自中國阿里團隊開源的 QwQ-32B。

      沒錯,蘋果的工程師,在美國用著谷歌的 TPU,調著亞馬遜的 Serverless 服務,去優化一個中國開源的 Qwen 模型。

      結果倒是非常亮眼。RLAX 僅用 12 小時 48 分鐘,在 1024 個 v5p TPU 上將 QwQ-32B 的 pass@8 準確率提高了12.8%,同時在訓練期間保持了對任務搶占的魯棒性。



      這種「美中技術大亂燉」的場景,在蘋果以往封閉的生態中簡直不可想象。這也側面印證了兩件事:第一,在 AI Infra 領域,實用主義正在壓倒門戶之見;第二,國產模型(尤其是 Qwen 和 DeepSeek)在代碼推理領域的統治力,已經強到連蘋果都忍不住要拿來當「磨刀石」。

      消失的 1.0:一個硬核的數值幽靈

      在 RLAX 論文的第 4 頁和第 9 頁,蘋果披露了一個足以讓系統工程師脊背發涼的 Bug。

      在強化學習中,On-policy(在線策略)訓練有一個理論基石:Importance Sampling ratio(重要性采樣比率)r (θ) 應該恒等于 1.0。因為行為策略和當前策略是完全一致的。

      但在 TPU 訓練實戰中,蘋果團隊發現:1.0 竟然不等于 1.0



      這個問題的根源在于 bfloat16 浮點數格式的非結合律(Non-associative) 特性。簡單來說,在計算機里 (a+b)+c 和 a+(b+c) 的結果可能存在微小的比特級差異。

      • 推理時:JAX 編譯器為了極致速度,會瘋狂融合算子(Kernel Fusion)。
      • 訓練時:為了反向傳播計算梯度,編譯器必須保留中間值,導致算子融合策略與推理時不同。

      這種計算順序的微小差異,在 bfloat16 下被放大,導致推理端算出的概率和訓練端算出的概率無法對齊,進而導致訓練崩潰。

      蘋果的解決方案非常暴力且有效:他們在訓練器中強制重算(Rematerialization),禁用了大部分激活值的保存,強行讓訓練端的計算圖去「模仿」推理端的計算順序。雖然犧牲了一點點速度,但消除了這個數值問題。

      對于正在從事 LLM Post-training 的工程師來說,這個 Debug 過程極具參考價值。

      雖然目前已被撤稿,但 RLAX 證明了蘋果在 AI 基礎設施上依然擁有世界頂級的工程能力。他們能駕馭最復雜的分布式系統,解決最底層的數值難題。

      但隨著許多重要人物分散到 Meta、OpenAI、Anthropic 和 xAI,這篇論文似乎也成為了蘋果 AI 這一階段的一個注腳。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4天5條人命,中國不再忍耐,聯大下通牒:塔利班若再裝傻后果自負

      4天5條人命,中國不再忍耐,聯大下通牒:塔利班若再裝傻后果自負

      春秋論娛
      2025-12-18 07:11:35
      日本告知世界,將強登釣魚島?中方迅速作出回應,俄羅斯選邊站了

      日本告知世界,將強登釣魚島?中方迅速作出回應,俄羅斯選邊站了

      林子說事
      2025-12-18 11:20:00
      快船消息:重要決定曝光,哈登傷情嚴峻,戰雷霆出場更新

      快船消息:重要決定曝光,哈登傷情嚴峻,戰雷霆出場更新

      冷月小風風
      2025-12-18 10:45:55
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      韓國總統李在明談漢字教育,提到中國古籍《千字文》

      韓國總統李在明談漢字教育,提到中國古籍《千字文》

      環球網資訊
      2025-12-17 21:32:59
      國運來了擋不住!30億噸鐵礦重見天日,美媒:中國將改寫全球格局

      國運來了擋不住!30億噸鐵礦重見天日,美媒:中國將改寫全球格局

      混沌錄
      2025-11-06 23:45:04
      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      賴昌星發妻曾明娜現狀:逃亡10年后回國,守著3000平老宅安靜養老

      古書記史
      2025-12-12 11:21:38
      70歲大爺賴了300萬的網貸,8家催收公司看到統一口徑:這賬收不回

      70歲大爺賴了300萬的網貸,8家催收公司看到統一口徑:這賬收不回

      卡西莫多的故事
      2025-12-15 11:13:59
      賭王女兒何超盈:從220斤瘦成紙片人,女兒6歲長得像東北學霸老公

      賭王女兒何超盈:從220斤瘦成紙片人,女兒6歲長得像東北學霸老公

      瞻史
      2025-12-17 14:23:31
      網紅狗“佩奇”去世!被人下毒致死,主人情緒崩潰,網友:不同情

      網紅狗“佩奇”去世!被人下毒致死,主人情緒崩潰,網友:不同情

      丁丁鯉史紀
      2025-12-17 17:46:35
      暴雷!2.7億年薪打工皇帝,恒大“二號人物”夏海鈞被最后通牒!

      暴雷!2.7億年薪打工皇帝,恒大“二號人物”夏海鈞被最后通牒!

      歷史偉人錄
      2025-12-16 11:21:40
      安徽一市新任一名副市長

      安徽一市新任一名副市長

      網易安徽
      2025-12-18 09:39:01
      央5直播廣東男籃VS廣州,郭艾倫VS徐杰,胡明軒回暖,杜鋒要3連勝

      央5直播廣東男籃VS廣州,郭艾倫VS徐杰,胡明軒回暖,杜鋒要3連勝

      體育大學僧
      2025-12-17 11:25:37
      泰國萬萬沒想到,柬埔寨竟然自己挑了一個最強硬的對手

      泰國萬萬沒想到,柬埔寨竟然自己挑了一個最強硬的對手

      樂天閑聊
      2025-12-17 14:53:15
      俄外長:美已向俄承諾烏將放棄部分領土

      俄外長:美已向俄承諾烏將放棄部分領土

      參考消息
      2025-12-17 18:32:07
      鄧文迪的倆女兒,都是學霸,深受父親寵愛,出生在羅馬的億萬富豪

      鄧文迪的倆女兒,都是學霸,深受父親寵愛,出生在羅馬的億萬富豪

      豐譚筆錄
      2025-12-15 10:41:58
      降得最多的居然是門頭溝!網傳北京2025年底房價出爐~

      降得最多的居然是門頭溝!網傳北京2025年底房價出爐~

      門頭溝區論壇
      2025-12-17 20:18:54
      西伯利亞“入冬備戰”:人均儲糧500公斤,窗戶至少加固到三層

      西伯利亞“入冬備戰”:人均儲糧500公斤,窗戶至少加固到三層

      近史談
      2025-12-05 20:48:52
      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      環球熱點快評
      2025-11-03 22:40:40
      王石太難了!為了配合田樸珺拍新別墅內景,把頭發都染成黑色的了

      王石太難了!為了配合田樸珺拍新別墅內景,把頭發都染成黑色的了

      娛圈小愚
      2025-12-18 11:23:17
      2025-12-18 13:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11944文章數 142512關注度
      往期回顧 全部

      科技要聞

      谷歌凌晨炸場,Pro級智商只賣“白菜價”

      頭條要聞

      牛彈琴:泰柬激烈沖突泰軍占上風 中國又出手了

      頭條要聞

      牛彈琴:泰柬激烈沖突泰軍占上風 中國又出手了

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      內娛解約大戰:鞠婧祎和絲芭,誰是狼人

      財經要聞

      重大改革,身關14億人的政策徹底變了!

      汽車要聞

      開箱日產大沙發 精致辦公or躺平追劇 哪個更適配?

      態度原創

      房產
      藝術
      游戲
      教育
      數碼

      房產要聞

      太強了!封關時刻,兩天砸下50億!央企綠發,重倉三亞!

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      冬日狂歡開啟!《逃離鴨科夫》冰雪主題挑戰地圖今日正式上線!

      教育要聞

      吉林財經大學值得報考嗎?就業+實習全托底,值得中分段學生關注!

      數碼要聞

      華為全新MatePad 11.5宣布12月22日發布 類自然光顯示 更護眼

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 信宜市| 人妻碰碰碰| 亚洲AV一卡| 国产自啪精品视频网站丝袜| av片在线观看| 丁香婷婷综合激情五月色 | 国产精自产拍久久久久久蜜 | 国产丨熟女丨国产熟女??在线| 日韩精品无码不卡无码| 色涩涩网| 99精品高清在线播放| yy111111少妇无码影院| 蜜臀av性久久久久蜜臀aⅴ麻豆| 精品一区二区三区自拍图片区| 色欲av狠狠躁天天躁无码中文| 日韩人妻无码一区二区三区综合部| 久久久777| 人妻二区| 国产av天堂| 南昌县| 国产av无码国产av毛片| 美女黄网站人色视频免费国产| 张北县| 免费无码又爽又刺激高潮软件| 动漫av永久无码精品每日更新| 龙井市| 人人爽人人爽人人片av| 亚洲区日韩精品中文字幕| 国产高清在线精品一区二区三区| 中文人妻熟妇乱又伦精品| 婷婷色综合成人成人网小说| 日韩a无v码在线播放| 天天做天天爱夜夜爽女人爽| 18无码粉嫩小泬无套在线观看 | 国产第一页屁屁影院| 久久精品亚洲精品国产色婷| 亚洲中文字幕无码久久2017| 亚洲精品无码永久在线观看你懂的 | 夜夜躁狠狠躁日日躁视频| 国产乱子伦真实精品!| 国产婷婷色一区二区三区|