<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      哈布斯堡AI的詛咒:合成數據遞歸下的模型坍縮

      0
      分享至

      枯竭的數字富礦

      過去十年,AI大模型之所以能大力出奇跡,是依托于互聯網上幾十年來全人類積累的、充滿粗糙生命力的高質量原始語料(百科、學術文獻、甚至論壇里人類互噴的黑話)。AI像一臺貪婪的采礦機,迅速榨干了這些富礦。

      到了今天,大模型研發最尷尬的現狀是:人類攢了幾千年的高質量語料,已經被這幾年的 Scaling Laws 翻來覆去吃了個干凈。高質量的原始數據很快成了稀缺資源。為了讓模型性能繼續提升,研發者們不得不嘗試一件以前覺得荒唐的事,用 AI 生成的數據,去喂養下一代 AI


      隨之而來的,是一場被稱為模型崩潰的賽博瘟疫。

      合成數據在AI界的興起

      在 AI 還沒這么火之前,合成數據(Synthetic Data)在業界其實早就扮演起了高級數字替身的角色。

      它的本質是統計學中的分布采樣。最早,它是為了解決那些想用數據卻不敢用或根本沒數據的尷尬場景,在醫療與金融領域尤其突顯:銀行和醫院想訓練算法,但原始數據涉及用戶隱私,無法直接用患者的數據訓練模型。于是統計學家用借助生成對抗網絡(GANs)或變分自編碼器(VAEs)捕捉原始數據的協方差矩陣和邊際分布,生成一套在統計學特性上幾乎真假難辨的模擬數據。


      GAN的核心是對抗訓練,生成器從噪聲中偽造數據,再讓判別器不斷分辨真假,二者反復博弈直到生成器能完美模仿真實分布;VAE則是通過編碼器將數據壓縮到 latent space,再由解碼器生成新樣本,強調概率建模。兩者都能在不泄露具體隱私的前提下,保留數據的統計學骨架(均值、方差、相關性等都與真實數據一致)。


      ▲ 圖 / GAN的核心對抗訓練機制

      類似地, 合成數據在 自動駕駛與機器人領域也早已大顯身手 。 你不可能為了訓練避障讓真車實打實撞一萬次墻,于是工程師在CARLA、Unreal Engine等模擬器中生成海量合成數據,先在虛擬世界完成訓練,再通過Sim-to-Real路徑遷移到現實。在計算機視覺任務中,合成數據還常被用于數據增強,幫助平衡那些樣本極少的罕見類別(如罕見病癥圖像)。


      隨著大模型時代的到來,合成數據的角色發生了質的飛躍。它不再僅僅是原始數據的統計模擬,而是搖身一變,成了一種邏輯蒸餾的燃料。

      最早吃到甜頭的是微軟。2023年,他們讓GPT-4這樣的頂級模型生成干凈、邏輯嚴密的合成教材,然后拿去訓練Phi系列小模型。結果意外地發現,這些吃精糧的小模型表現竟然全面反超了那些靠互聯網臟數據長大的大模型。他們因此喊出了那句后來廣為流傳的口號:Textbooks Are All You Need!


      事實上,合成數據已在AI多領域大放異彩:指令微調中,Self-Instruct方法讓模型自我生成高質量指令-響應對,催生了Alpaca等高效小模型;在代碼推理,合成問題+逐步思考(CoT)軌跡顯著提升了o1-like模型的鏈式推理能力;多模態AI中,合成圖像+精準標注用于訓練視覺-語言模型(如CLIP變體);強化學習與機器人中,合成軌跡數據加速了策略優化,避免了真實世界的高昂試錯成本,……

      這一連串成功仿佛印證了一種妄念:只要算力足夠,數據不再是瓶頸。合成數據又便宜、又干凈、還能無限量供應,那為什么還要繼續翻那些充滿口水話和邏輯漏洞的人類語料區呢?


      然而,這種數字興奮劑帶來的短期紅利,很快就招致了統計學意義上的反噬。

      模式坍縮:提純的反噬

      當這種用AI訓練AI的模式從微調擴散到全量預訓練時,崩壞開始了。

      2024 年,牛津與劍橋團隊在《Nature》上發表了一項重磅實驗,擊碎了把合成數據當永動機的幻想。 研究者做了一個遞歸實驗:先用真實人類數據訓練出第 0 代模型,然后讓它生成合成數據,再去訓練下一代,以此類推。

      他們特意選取了一個知識邊界清晰的主題:英國中世紀教堂建筑,作為測試案例,以觀察遞歸的內容的逐代變化過程。

      第 0 代: 邏輯嚴密,能準確描述石材、拱頂和建筑風格。

      第 5 代: 語義邊界開始模糊。開始把教堂的石材和周圍的自然風景搞混,描述變得模棱兩可。

      第 9 代:開始整頁整頁地重復一段毫無意義的亂碼:“長耳大野兔(Jackrabbits)有黑色、白色的毛發……野兔的尾巴……”

      真正的邏輯熔斷發生在第 9 代。此時模型已經徹底放棄了關于建筑的討論,轉而開始整頁重復一段關于長耳大野兔毛色的亂碼。這種崩潰不是緩慢的性能下降,而是在某個臨界點突然發生的模式坍縮。


      ▲ 圖 / 《Nature》2024模型崩潰論文

      在遞歸過程中,模型在每一代演進中都會丟失一點真實世界的復雜性,最終因為這種智力層面的近親繁殖,徹底陷入了自我重復的癲狂。

      這種現象被戲稱為哈布斯堡 AI(Habsburg AI),正如歷史上那個因近親繁殖導致下巴畸形、家族絕嗣的歐洲皇室,當模型試圖在影子的影子里尋找規律時,原本人類語料中那些充滿起伏的噪聲:那些細膩的比喻、生僻的文化符號以及獨特的表達,被層層疊加的概率均值無情抹除。直到某個微小的隨機誤差在遞歸中被不斷放大,整個概率分布最終滑向一個極窄的死胡同里,也就是那段關于野兔的廢話。

      消失的長尾

      這種崩潰并非偶然,而是合成數據遞歸訓練的必然結果,它的根源隱藏在數據分布的逐步坍縮之中。


      AI 模型本質上是一個概率擬合機。

      當它在擬合人類數據分布時,為了最小化經驗風險,總是優先傾向于捕捉那些高頻出現的平均模式,而丟棄那些低頻的長尾分布,也就是那些罕見表達、獨特的比喻、甚至是一些口誤。

      在單次生成中,這種去噪機制讓輸出顯得更流暢穩健,更符合常識。但在多代遞歸訓練中成了致命傷。第一代合成數據可能只是抹除了人類語言中的瑕疵,到了第二代,第三代…… 每一代都在上一代的基礎上繼續趨于平庸化。


      ▲ 圖 /合成數據遞歸訓練下的方差坍縮

      從核密度估計(KDE)的視角來看,每一次用近似分布去擬合上一個分布,尾部概率都會被進一步削平,這種對尾部的系統性低估像雪球般不斷累積,最終驅使整個數據分布的方差坍縮,分布越來越集中在均值附近,誤差棒逐漸收斂,直至長尾徹底消失。

      模型就像一個患有數字潔癖的怪物,極度厭惡人類數據里的粗糙與不確定性,一心想要提純出一套完美規律,結果反而親手扼殺了智能賴以生存的多樣性。

      這一遞歸過程可被精確建模為離散時間馬爾可夫鏈在token序列狀態空間上的演化。由于每一代合成數據都在系統性地壓縮分布的支撐集,生成分布的香農熵持續單調下降,最終概率質量不可逆地收斂至一個或少數幾個吸收態。一旦落入這些吸收態,模型便徹底喪失進一步演化的可能性,只能永久鎖定在高度重復的固定模式中。就像那只實驗中反復出現的“長耳大野兔”,成為系統抵達這一數學終點的必然體現。

      這也揭示了,過度的一致性正是退化的序幕。如果一個系統只允許最正確的信號存在,那么它最終只能通向虛無。

      對抗虛無的解藥


      在柏拉圖的寓言里,囚徒們背對著出口,通過觀察墻上的影子來理解現實。

      AI時代的困境如出一轍。

      當我們用投影去訓練下一代模型,AI 實際上是在觀察“影子的影子”。工程師厭惡的數據噪聲,同時也是寶貴的不確定性。沒有了來自物理世界的、臟兮兮的原生采樣,純數字的虛擬閉環最終只會走向熱寂。秩序往往只是概率的偶然,而那些粗糙的、充滿生命力的不完美,才是對抗數字虛無的唯一火種。

      end

      參考文獻:

      Shumailov (2024). AI models collapse when trained on recursively generated data.

      [2] Gunasekar, S. et al. (2023). Textbooks are all you need. arXiv:2306.11644.

      [3] Goodfellow, I. et al. (2014).

      NeurIPS 2014.

      Generative adversarial nets. 2

      [4] Gerstgrasser, M. et al. (2024). Is model collapse inevitable? Breaking the curse of recursion by accumulating real and synthetic data. arXiv:2404.01413.

      來源:DataCafe

      編輯:LogicMoriaty

      轉載內容僅代表作者觀點

      不代表中科院物理所立場

      如需轉載請聯系原公眾號

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      57歲鄭麗文懂審美!穿紫色西服很干練,一舉一動都透著女強人氣場

      57歲鄭麗文懂審美!穿紫色西服很干練,一舉一動都透著女強人氣場

      八八尚語
      2026-04-08 10:25:52
      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      帶你感受人間冷暖
      2026-02-07 03:58:56
      悲哀!黃國昌前方賣命,柯文哲后面拆臺,蔡壁如“咸魚翻身”

      悲哀!黃國昌前方賣命,柯文哲后面拆臺,蔡壁如“咸魚翻身”

      牛鍋巴小釩
      2026-04-09 00:58:25
      程序員哭泣:被阿里裁員3年了,收入巔峰永遠停在2022年了,125萬

      程序員哭泣:被阿里裁員3年了,收入巔峰永遠停在2022年了,125萬

      黯泉
      2026-04-08 20:26:04
      石油只是幌子!美國中東真正目標曝光,中國專家早已預言

      石油只是幌子!美國中東真正目標曝光,中國專家早已預言

      基斯默默
      2026-04-07 22:30:24
      52歲漂亮大媽相親,聊到特殊問題卻立馬臉紅,大叔:你不說我也懂

      52歲漂亮大媽相親,聊到特殊問題卻立馬臉紅,大叔:你不說我也懂

      談史論天地
      2026-04-08 19:05:03
      項立剛再撕莫言!諾貝爾文學獎評委只有18人,其中只有一個懂中文

      項立剛再撕莫言!諾貝爾文學獎評委只有18人,其中只有一個懂中文

      談史論天地
      2026-04-04 17:50:41
      “高中女孩”與“職高女孩”的對比圖火了,家長直言:差距太大了

      “高中女孩”與“職高女孩”的對比圖火了,家長直言:差距太大了

      世界圈
      2026-04-08 09:22:28
      冷知識:電和天然氣燒水,誰更省錢?差距能差一個月菜錢!

      冷知識:電和天然氣燒水,誰更省錢?差距能差一個月菜錢!

      小談食刻美食
      2026-04-06 09:26:41
      “預制菜”一上桌,人就跑光!商場餐飲的黃金時代真結束了?

      “預制菜”一上桌,人就跑光!商場餐飲的黃金時代真結束了?

      混沌錄
      2026-04-08 16:54:07
      紅薯逆襲?科學研究:堅持吃紅薯,不出半年,或能收獲這5種好處

      紅薯逆襲?科學研究:堅持吃紅薯,不出半年,或能收獲這5種好處

      健康之光
      2026-04-06 18:41:47
      國際油價短線下挫 WTI原油跌幅再度擴大至18%

      國際油價短線下挫 WTI原油跌幅再度擴大至18%

      財聯社
      2026-04-08 20:12:34
      又紫又紅!無錫開始了!

      又紫又紅!無錫開始了!

      江南晚報
      2026-04-05 15:08:48
      伊朗宣布勝利,議長將率團參加伊美談判;我外交部回應中國是否推動伊朗參與?;鹫勁?>
    </a>
        <h3>
      <a href=Ck的蜜糖
      2026-04-09 03:16:49
      國家一級女演員陳麗云被逮捕!

      國家一級女演員陳麗云被逮捕!

      許三歲
      2026-03-28 09:24:30
      美國人最喜愛的汽車排名:沒有一款歐洲車,美系車也只有一款上榜

      美國人最喜愛的汽車排名:沒有一款歐洲車,美系車也只有一款上榜

      鐵錘妹妹是只貓
      2026-04-08 03:27:36
      白冰再也找不回玉淑的感覺了

      白冰再也找不回玉淑的感覺了

      可樂談情感
      2026-04-09 01:49:39
      中國斥資20萬億打造全球最大規模城市更新工程

      中國斥資20萬億打造全球最大規模城市更新工程

      觀察者小海風
      2026-04-08 13:13:22
      助威男足,邦馬蒂到諾坎普現場觀看巴薩與馬競的首回合比賽

      助威男足,邦馬蒂到諾坎普現場觀看巴薩與馬競的首回合比賽

      懂球帝
      2026-04-09 03:00:07
      蘋果降價,iPhone 17 Pro 256GB大放異彩,錯過的朋友們要恭喜了!

      蘋果降價,iPhone 17 Pro 256GB大放異彩,錯過的朋友們要恭喜了!

      小柱解說游戲
      2026-04-09 02:22:35
      2026-04-09 03:51:00
      中科院物理所 incentive-icons
      中科院物理所
      愛上物理,改變世界。
      10045文章數 136518關注度
      往期回顧 全部

      科技要聞

      造出地表最強AI,卻死活不給你用!

      頭條要聞

      伊朗武裝部隊:伊朗對美以絕不信任

      頭條要聞

      伊朗武裝部隊:伊朗對美以絕不信任

      體育要聞

      40歲,但實力倒退12年

      娛樂要聞

      侯佩岑全家悉尼度假,一家四口幸福滿溢

      財經要聞

      天津海河乳業回應直播間涉黃

      汽車要聞

      20萬級滿配華為全家桶 華境S是懂家庭的大六座

      態度原創

      旅游
      房產
      教育
      藝術
      公開課

      旅游要聞

      三大花海已浪漫盛放!來這里“花”點時間!

      房產要聞

      正式動工!珠城馬場地塊,簽約華爾道夫!

      教育要聞

      高考地理|什么是"下擊暴流"?

      藝術要聞

      驚艷!她的私房自拍照讓人無法抵擋!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版