網易首頁 > 網易號 > 正文申請入駐

合成數據≠生成模型：一文讀懂合成數據的全新范式

2026-04-16 12:05:11　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】最新研究提出合成數據的全新分類框架，突破「生成模型=合成數據」的傳統認知，涵蓋反演、仿真與數據增強等方法，并按應用層次劃分為數據中心AI、模型中心AI、可信AI和具身AI。

隨著基礎模型規模不斷擴大，真實數據在成本、隱私、質量和可控性上的限制，正逐漸成為 AI 繼續發展的關鍵瓶頸。

尤其是在醫療等高價值場景中，真實數據本身難以獲取，「依賴數據自然產生」的范式正在失效。

在這樣的背景下，合成數據正在從「真實數據的補充」，轉變為“主動構造高質量訓練與評估數據的核心機制”。

基于對300+篇代表性文獻的系統梳理，南洋理工大學、清華大學、四川大學、中山大學的研究人員提出了一個統一的How / Why / Where框架，重新定義了合成數據的方法邊界，并從應用層面給出了更完整的發展路徑。

論文鏈接：https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

論文資源庫：https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation

首先，合成數據方法該如何分類？

很多工作默認認為「合成數據 = 生成模型」，該綜述重新定義了「數據合成」的方法邊界，跳出「合成數據 = 生成模型」的單一視角。也就是說，合成數據并不等同于“用生成模型造數據”，反演、仿真、增強等方式也都應被納入合成數據的范疇。

下表給出了整體分類框架：

第二，合成數據應用在哪些核心場景？

不同于以往按具體任務或領域劃分的方式，本文從更高層次出發，將合成數據的應用組織為一條逐步演進的能力路徑。

在這一框架下，最基礎的是數據中心人工智能（Data-centric AI），其核心目標是解決真實數據稀缺、獲取成本高以及隱私受限等問題，通過合成數據擴展訓練集并提升數據質量，為模型訓練提供穩定的數據基礎。

在此之上，隨著數據可獲得性的提升，研究重點逐漸轉向模型中心人工智能（Model-centric AI），此時合成數據不僅用于補充數據，還被用于能力注入，例如提升模型的推理、編碼與對齊能力，并構建可控的評測基準。

進一步地，隨著模型能力的增強，對系統可靠性的需求不斷提高，催生了可信人工智能（Trustworthy AI），在這一階段，合成數據被廣泛用于隱私保護、安全防護、公平性提升以及模型可解釋性分析。

最后，合成數據的應用從數字空間走向現實世界，對應的是具身智能（Embodied AI），其目標是支持感知、交互與泛化能力，使智能體能夠在復雜物理環境中進行決策與行動。下表給出了整體結構（具體細節可參考原論文）：

進一步地，文章將上述四類應用場景細化到了 30+ 個具體機器學習任務層級，從而構建起從宏觀分類到具體問題的系統化映射。

如下圖所示，每一類場景都被進一步拆解為多個典型問題：例如，在數據中心人工智能中，涵蓋了零/少樣本學習、聯邦學習、無數據學習、數據蒸餾等任務；在模型中心人工智能中，則進一步細化為模型通用能力提升，以及推理、編碼、指令對齊等特定能力的增強，同時也包括基于合成數據的模型評測任務；

在可信人工智能中，主要聚焦于隱私保護、模型攻擊、安全防護、長尾學習與可解釋性等任務；而在具身智能中，則進一步延伸到感知、交互以及跨場景泛化等面向真實環境的任務。

最后，合成數據面臨哪些挑戰與機遇？

盡管在方法體系與應用落地方面已經取得了顯著進展，但合成數據仍處于快速發展階段，仍然存在一系列關鍵挑戰有待解決。

隨著模型越來越多地依賴自生成數據進行訓練，一個核心風險逐漸顯現：模型坍塌（model collapse）。當模型反復在自身生成的數據上迭代訓練時，可能導致分布逐漸收縮，數據多樣性下降，從而影響模型性能與泛化能力。
在實際應用中，如何在數據效用與隱私保護之間取得平衡，仍然是一個長期存在的問題，即所謂的數據效用與隱私保護的權衡（utility–privacy tradeoff）。過強的隱私約束可能降低數據可用性，而過高的數據保真度又可能帶來潛在的隱私泄露風險。
當合成數據被用于模型評測時，還可能引入新的偏差來源。例如，生成-評測偏差（generation–evaluation bias）指的是模型在由相似生成機制產生的測試數據上表現更優，從而導致評估結果失真，影響對模型真實能力的判斷。
在方法層面，多個前沿方向也仍有待探索。例如，主動式數據合成（active data synthesis）強調根據模型需求動態生成最有價值的數據，以提升數據利用效率；而多模態數據合成（multi-modal data synthesis）則關注如何生成語義一致、跨模態對齊的高質量數據，這對于多模態模型的發展尤為關鍵。
最后，一個基礎但尚未完全解決的問題是：如何系統性評估合成數據的質量。這不僅包括數據的有效性（utility）與多樣性（diversity），還涉及隱私（privacy）與安全性（security）等多個維度，目前仍缺乏統一且標準化的評測體系。

下圖給出了該綜述的總體整理框架，具體細節可參考原文。

這篇綜述最值得關注的地方，不只是整理了現有方法，更重要的是它改變了我們理解合成數據的方式：合成數據不再只是生成模型的一個應用方向，而正在成為連接數據、模型、評測與真實世界交互的新型基礎設施。

如果說過去AI的競爭核心是「誰擁有更多真實數據」，那么未來很可能會變成「誰能更高效、更安全、更可控地生成高價值數據」。

參考資料：

https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.