2026年4月1日,蘋果機器學習團隊往arXiv扔了篇論文。標題很蘋果——「Embarrassingly Simple Self-Distillation Improves Code Generation」,翻譯過來大概是「簡單到讓人臉紅的自蒸餾,居然能讓代碼生成變強」。
「Embarrassingly Simple」這個短語在學術圈有特定含義:方法土得掉渣,效果卻好得離譜。蘋果這次沒搞什么千億參數怪獸,而是盯上了自家Swift代碼生成模型,參數規模只有1.5億——放在今天,這數字小得像個笑話。
但他們搞了個反向操作。不是讓老師模型教學生,而是讓學生模型自己教自己。
自蒸餾:自己給自己當爹
傳統知識蒸餾(Knowledge Distillation)的套路很固定:先訓一個巨型教師模型,再用它的輸出去「帶」一個小型學生模型。蘋果團隊覺得這事太麻煩。
他們的方案是:同一個1.5億參數的模型,生成一批代碼答案,用置信度篩選出高質量的,再喂回去重新訓練自己。沒有教師,沒有外部監督,模型自己給自己標注數據。
「這就像讓一個中等生自己批改作業,只保留做對的題,反復刷。」論文一作Ruixiang Zhang在團隊博客中寫道。
關鍵設計在于「置信度過濾」機制。模型對每個生成的代碼片段會打一個概率分,只保留分數超過閾值的部分進入下一輪訓練。蘋果試了多個閾值,發現0.9是個甜點——太嚴格會漏掉好樣本,太寬松會引入噪聲。
三輪迭代后,HumanEval(OpenAI的代碼能力基準測試)通過率從基線的26.2%沖到38.5%。換算成相對提升,47%的漲幅。
作為對比,Google的Codey系列在類似規模下,HumanEval得分通常在30%上下徘徊。蘋果用1.5億參數做到了別人需要10倍參數才能達到的水平。
為什么小模型能自己教自己
這事違反直覺。按理說,模型能力有天花板,自己生成的答案質量不可能超過自身水平,迭代下去應該越來越蠢才對。
蘋果的解釋是「噪聲篩選效應」。代碼生成任務的答案空間極大,同一道題可能有幾十種正確解法。模型第一次生成時,雖然整體準確率不高,但高置信度的答案往往確實是對的——它只是沒信心把所有正確答案都識別出來。
自蒸餾相當于讓模型「聚焦」在自己的舒適區。反復強化高置信度樣本,相當于在正確答案的分布上不斷做梯度下降。用論文里的比喻:「不是讓模型學會更多,而是讓它更確定自己已經會的東西。」
另一個隱藏收益是數據效率。傳統方法需要大量人工標注或教師模型推理,成本極高。蘋果這套方案在單張A100上跑完三輪迭代只需12小時,電費賬單不到50美元。
團隊還做了消融實驗:去掉置信度過濾,直接拿所有生成結果訓練,HumanEval得分反而下降4%。這說明「篩選」比「生成」更重要。
蘋果的端側野心
1.5億參數是什么概念?塞進iPhone的神經網絡引擎(Neural Engine)綽綽有余。作為參照,GPT-4的傳聞參數規模在萬億級別,云端推理一次的成本夠蘋果這套方案訓練兩百輪。
蘋果機器學習負責人John Giannandrea在2024年的WWDC上提過「智能應該發生在設備上」。這篇論文是技術層面的落地注腳。
自蒸餾的另一個好處是「隱私友好」。不需要上傳用戶數據到云端訓練,模型在本地迭代即可。這對醫療、金融等敏感場景是剛需。
論文附錄里有個細節:團隊測試了模型在Swift、Python、C++三種語言上的表現。Swift提升最大(+47%),Python次之(+31%),C++最小(+19%)。原因可能是Swift的語法約束更嚴格,模型更容易判斷答案是否正確。
這也暴露了方法的邊界:在答案可自動驗證的領域(代碼、數學證明),自蒸餾效果好;在開放式任務(創意寫作、對話)上,置信度和質量的相關性會下降。
開源社區的連鎖反應
論文發布48小時內,Hugging Face上出現了三個復現項目。最活躍的一個用Llama-3-8B做實驗,報告了類似的提升曲線。
Google DeepMind的研究員Denis Yarats在X上評論:「這方法太臟了,臟到我不敢相信沒人試過。」他的團隊正在驗證是否能復現到更大規模模型上。
Meta的AI研究主管Yann LeCun轉發了論文,配文只有一個詞:「Finally」。他多年來一直鼓吹「自監督學習」的重要性,蘋果的方案可以看作一種極端形式的自監督。
但也有質疑聲。斯坦福NLP組的Percy Liang指出,HumanEval的測試集只有164道題,「47%的提升可能包含過擬合風險」。蘋果團隊在論文里回應了這一點:他們在MBPP(另一個代碼基準,974道題)上做了驗證,提升幅度為39%,趨勢一致。
更實質性的批評來自訓練成本。雖然單輪迭代便宜,但三輪迭代需要生成-篩選-訓練三次完整循環,總計算量其實不低。蘋果沒公布具體數字,但估算下來可能接近直接訓練一個3億參數模型的成本。
「省的是標注錢,不是算力錢。」一位在X上匿名評論的OpenAI工程師寫道。
蘋果選擇在這個時間點發論文,時機微妙。2025年下半年以來,業界對「模型縮放定律」(Scaling Law)的信仰出現動搖——GPT-5的傳聞一再推遲,Anthropic的Claude 4也沒達到預期飛躍。小模型優化突然成了顯學。
這篇論文的標題用了「Embarrassingly Simple」,但正文里有個細節:團隊最初嘗試的是更復雜的方案,包括多模型協作蒸餾、動態閾值調整等,效果反而不如最簡單的版本。
「我們花了三個月去掉那些花哨設計。」Ruixiang Zhang在論文致謝里寫道。
這種「做減法」的敘事,和蘋果產品設計的調性意外吻合。iPhone的芯片團隊有個內部原則:晶體管預算有限時,優先優化內存帶寬而非算力峰值。自蒸餾本質上是在「數據帶寬」上做文章——用更聰明的篩選策略,替代更暴力的參數堆砌。
論文最后提到,團隊正在探索「在線自蒸餾」:模型在用戶使用過程中持續迭代,每夜利用空閑算力自我更新。如果落地,你的iPhone可能會越用越懂你的代碼風格。
這引出一個問題:當模型能自己教自己,我們還需要那么多標注工程師嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.