網易首頁 > 網易號 > 正文申請入駐

蘋果把1.5億參數模型喂給自家AI，結果代碼能力暴漲47%

2026-04-05 08:45:48　來源: Ping值焦慮

北京舉報

分享至

2026年4月1日，蘋果機器學習團隊往arXiv扔了篇論文。標題很蘋果——「Embarrassingly Simple Self-Distillation Improves Code Generation」，翻譯過來大概是「簡單到讓人臉紅的自蒸餾，居然能讓代碼生成變強」。

「Embarrassingly Simple」這個短語在學術圈有特定含義：方法土得掉渣，效果卻好得離譜。蘋果這次沒搞什么千億參數怪獸，而是盯上了自家Swift代碼生成模型，參數規模只有1.5億——放在今天，這數字小得像個笑話。

但他們搞了個反向操作。不是讓老師模型教學生，而是讓學生模型自己教自己。

自蒸餾：自己給自己當爹

傳統知識蒸餾（Knowledge Distillation）的套路很固定：先訓一個巨型教師模型，再用它的輸出去「帶」一個小型學生模型。蘋果團隊覺得這事太麻煩。

他們的方案是：同一個1.5億參數的模型，生成一批代碼答案，用置信度篩選出高質量的，再喂回去重新訓練自己。沒有教師，沒有外部監督，模型自己給自己標注數據。

「這就像讓一個中等生自己批改作業，只保留做對的題，反復刷。」論文一作Ruixiang Zhang在團隊博客中寫道。

關鍵設計在于「置信度過濾」機制。模型對每個生成的代碼片段會打一個概率分，只保留分數超過閾值的部分進入下一輪訓練。蘋果試了多個閾值，發現0.9是個甜點——太嚴格會漏掉好樣本，太寬松會引入噪聲。

三輪迭代后，HumanEval（OpenAI的代碼能力基準測試）通過率從基線的26.2%沖到38.5%。換算成相對提升，47%的漲幅。

作為對比，Google的Codey系列在類似規模下，HumanEval得分通常在30%上下徘徊。蘋果用1.5億參數做到了別人需要10倍參數才能達到的水平。

為什么小模型能自己教自己

這事違反直覺。按理說，模型能力有天花板，自己生成的答案質量不可能超過自身水平，迭代下去應該越來越蠢才對。

蘋果的解釋是「噪聲篩選效應」。代碼生成任務的答案空間極大，同一道題可能有幾十種正確解法。模型第一次生成時，雖然整體準確率不高，但高置信度的答案往往確實是對的——它只是沒信心把所有正確答案都識別出來。

自蒸餾相當于讓模型「聚焦」在自己的舒適區。反復強化高置信度樣本，相當于在正確答案的分布上不斷做梯度下降。用論文里的比喻：「不是讓模型學會更多，而是讓它更確定自己已經會的東西。」

另一個隱藏收益是數據效率。傳統方法需要大量人工標注或教師模型推理，成本極高。蘋果這套方案在單張A100上跑完三輪迭代只需12小時，電費賬單不到50美元。

團隊還做了消融實驗：去掉置信度過濾，直接拿所有生成結果訓練，HumanEval得分反而下降4%。這說明「篩選」比「生成」更重要。

蘋果的端側野心

1.5億參數是什么概念？塞進iPhone的神經網絡引擎（Neural Engine）綽綽有余。作為參照，GPT-4的傳聞參數規模在萬億級別，云端推理一次的成本夠蘋果這套方案訓練兩百輪。

蘋果機器學習負責人John Giannandrea在2024年的WWDC上提過「智能應該發生在設備上」。這篇論文是技術層面的落地注腳。

自蒸餾的另一個好處是「隱私友好」。不需要上傳用戶數據到云端訓練，模型在本地迭代即可。這對醫療、金融等敏感場景是剛需。

論文附錄里有個細節：團隊測試了模型在Swift、Python、C++三種語言上的表現。Swift提升最大（+47%），Python次之（+31%），C++最小（+19%）。原因可能是Swift的語法約束更嚴格，模型更容易判斷答案是否正確。

這也暴露了方法的邊界：在答案可自動驗證的領域（代碼、數學證明），自蒸餾效果好；在開放式任務（創意寫作、對話）上，置信度和質量的相關性會下降。

開源社區的連鎖反應

論文發布48小時內，Hugging Face上出現了三個復現項目。最活躍的一個用Llama-3-8B做實驗，報告了類似的提升曲線。

Google DeepMind的研究員Denis Yarats在X上評論：「這方法太臟了，臟到我不敢相信沒人試過。」他的團隊正在驗證是否能復現到更大規模模型上。

Meta的AI研究主管Yann LeCun轉發了論文，配文只有一個詞：「Finally」。他多年來一直鼓吹「自監督學習」的重要性，蘋果的方案可以看作一種極端形式的自監督。

但也有質疑聲。斯坦福NLP組的Percy Liang指出，HumanEval的測試集只有164道題，「47%的提升可能包含過擬合風險」。蘋果團隊在論文里回應了這一點：他們在MBPP（另一個代碼基準，974道題）上做了驗證，提升幅度為39%，趨勢一致。

更實質性的批評來自訓練成本。雖然單輪迭代便宜，但三輪迭代需要生成-篩選-訓練三次完整循環，總計算量其實不低。蘋果沒公布具體數字，但估算下來可能接近直接訓練一個3億參數模型的成本。

「省的是標注錢，不是算力錢。」一位在X上匿名評論的OpenAI工程師寫道。

蘋果選擇在這個時間點發論文，時機微妙。2025年下半年以來，業界對「模型縮放定律」（Scaling Law）的信仰出現動搖——GPT-5的傳聞一再推遲，Anthropic的Claude 4也沒達到預期飛躍。小模型優化突然成了顯學。

這篇論文的標題用了「Embarrassingly Simple」，但正文里有個細節：團隊最初嘗試的是更復雜的方案，包括多模型協作蒸餾、動態閾值調整等，效果反而不如最簡單的版本。

「我們花了三個月去掉那些花哨設計。」Ruixiang Zhang在論文致謝里寫道。

這種「做減法」的敘事，和蘋果產品設計的調性意外吻合。iPhone的芯片團隊有個內部原則：晶體管預算有限時，優先優化內存帶寬而非算力峰值。自蒸餾本質上是在「數據帶寬」上做文章——用更聰明的篩選策略，替代更暴力的參數堆砌。

論文最后提到，團隊正在探索「在線自蒸餾」：模型在用戶使用過程中持續迭代，每夜利用空閑算力自我更新。如果落地，你的iPhone可能會越用越懂你的代碼風格。

這引出一個問題：當模型能自己教自己，我們還需要那么多標注工程師嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Meta員工空轉AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
0 跟貼 0
早期項目 | 前蘋果員工做了只AI“肩上寵物”，奇績創壇孵化，要切年輕人潮玩市場

36氪 2026-04-07 16:20:08
0 跟貼 0

Agent的苦澀覺醒：智能正從語言走向經驗

華爾街見聞官方 2026-03-02 09:43:30
8 跟貼 8

2010美股閃崩預演! Claude黑進底層，谷歌預警: AI將血洗人類萬億財富

新智元 2026-04-06 19:58:03
37 跟貼 37
AI編程：“全民狂歡” vs“屎山危機”

華爾街見聞官方 2026-04-07 08:51:53
0 跟貼 0

北大團隊提出 SHINE：任意文本轉化大模型 LoRA，僅一次前向傳播

機器之心Pro 2026-03-23 15:46:38
0 跟貼 0

一夜變天:GPT-Image-2流出,昔日王者Nano Banana Pro被拉下神壇？

機器之心Pro 2026-04-07 11:19:35
0 跟貼 0
Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0

中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
0 跟貼 0
力控與運控的融合，共話具身智能“小腦”進化的破局之道

鈦媒體APP 2026-04-07 16:50:38
0 跟貼 0
邀請函｜ICLR 2026中稿先講，在這場預講會遇見你的學術同行

DeepTech深科技 2026-04-07 18:37:24
0 跟貼 0
安卓也能給蘋果 Airdrop，實測 Pixel 9 Pro 傳照片

愛范兒 2026-04-02 21:57:11
1 跟貼 1
蘋果都 50 歲了，大家怎么還在懷念它年輕的時候？

差評XPIN 2026-04-07 17:26:04
0 跟貼 0
蘋果第8號員工至今仍在職，14歲入職50年零跳槽

快科技 2026-04-05 15:11:33
0 跟貼 0
工信部緊急提醒蘋果用戶！

主持人揚帆 2026-04-05 20:46:39
0 跟貼 0
蘋果偷偷換工藝，Ultra 3 表殼上竟然有細密紋理！

愛范兒 2025-11-19 13:45:55
30 跟貼 30
女生是蘋果鏡頭膜的第一批受害者，貼上后真的很難撕下來

笑料發射 2026-04-06 12:12:09
1 跟貼 1
紅果下架AI盜臉易烊千璽短劇；蘋果首款折疊手機已在試產

元創數智在線 2026-04-07 13:08:25
1 跟貼 1
教程分享

釣之有道 2026-04-05 20:38:17
0 跟貼 0
完球了，GPT-4o之母宣布離職OpenAI

量子位 2026-04-07 17:19:50
2 跟貼 2
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
25801 跟貼 25801
領導執迷不悟對實驗走火入魔，結果毀了一座城

呵呵剪輯 2026-04-06 10:33:43
1 跟貼 1
046中考數學真題，求一個令分數表達式為整數的參數值，整除問題

我服子佩 2026-04-06 13:39:49
1 跟貼 1
工信部：蘋果設備遭漏洞攻擊可致信息被竊取

貝殼財經 2026-04-05 05:47:20
0 跟貼 0
iPad Air 3 Wi-Fi版被蘋果列為復古產品，竟還能升級iPadOS 26

快科技 2026-04-03 08:24:47
0 跟貼 0
蘋果用 5 年時間就優化了一個聲音

愛范兒 2026-02-06 21:26:06
0 跟貼 0
河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
3 跟貼 3
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
1721 跟貼 1721
楊元慶，捐贈2億元！

證券時報 2026-04-06 22:44:23
880 跟貼 880
1020的代碼

表弟看車 2026-04-06 18:12:51
0 跟貼 0
8日開考，穩拿30分！鄭州中考理化生實驗滿分攻略→

大象新聞 2026-04-07 12:45:02
2 跟貼 2
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
一個實驗告訴女兒欲速則不達的道理

初塵綜藝 2026-04-05 19:04:57
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
誰說文科生不懂AI？不懂代碼反而更強，這才是降維打擊！

未來圖靈 2026-04-07 10:26:27
0 跟貼 0
WCL boss戰代碼篩除合集 (已經更新至NAXX)

山西三炮 2026-04-07 08:33:46
0 跟貼 0
蘋果官網上架Herschel Cloudform iPhone斜挎包，59.95美元

IT之家 2026-04-07 18:32:12
0 跟貼 0
甲狀腺結節報告單上的“危險信號”：這幾個字一出現，別拖！

北苑日常 2026-04-07 10:30:05
1 跟貼 1
深度剖析巧戰破局，戰術迭代，耗敵制勝

徐Toso 2026-04-07 02:06:21
0 跟貼 0
蘋果花3年攢的局，紅毯上7個A咖沒一個敢站C位

有態度網友ytd3049 2026-04-07 18:54:40
0 跟貼 0

Ping值焦慮

有態度網友ytd

829文章數 20關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

健康

教育

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

蘋果把1.5億參數模型喂給自家AI，結果代碼能力暴漲47%

自蒸餾：自己給自己當爹

為什么小模型能自己教自己

蘋果的端側野心

開源社區的連鎖反應

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

楊超越之后，全網頭像錦鯉的C位被她搶走了

跟著歌聲游安徽，聽古村回響

干細胞抗衰4大誤區,90%的人都中招

可樂、魚腥草進教室…武漢商學院這堂“食品感官分析”課，夯爆了

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗