![]()
新智元報道
編輯:LRST
【新智元導讀】最新研究提出合成數據的全新分類框架,突破「生成模型=合成數據」的傳統認知,涵蓋反演、仿真與數據增強等方法,并按應用層次劃分為數據中心AI、模型中心AI、可信AI和具身AI。
隨著基礎模型規模不斷擴大,真實數據在成本、隱私、質量和可控性上的限制,正逐漸成為 AI 繼續發展的關鍵瓶頸。
尤其是在醫療等高價值場景中,真實數據本身難以獲取,「依賴數據自然產生」的范式正在失效。
在這樣的背景下,合成數據正在從「真實數據的補充」,轉變為“主動構造高質量訓練與評估數據的核心機制”。
基于對300+篇代表性文獻的系統梳理,南洋理工大學、清華大學、四川大學、中山大學的研究人員提出了一個統一的How / Why / Where框架,重新定義了合成數據的方法邊界,并從應用層面給出了更完整的發展路徑。
![]()
論文鏈接:https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where
論文資源庫:https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation
首先,合成數據方法該如何分類?
很多工作默認認為「合成數據 = 生成模型」,該綜述重新定義了「數據合成」的方法邊界,跳出「合成數據 = 生成模型」的單一視角。也就是說,合成數據并不等同于“用生成模型造數據”,反演、仿真、增強等方式也都應被納入合成數據的范疇。
下表給出了整體分類框架:
![]()
第二,合成數據應用在哪些核心場景?
不同于以往按具體任務或領域劃分的方式,本文從更高層次出發,將合成數據的應用組織為一條逐步演進的能力路徑。
在這一框架下,最基礎的是數據中心人工智能(Data-centric AI),其核心目標是解決真實數據稀缺、獲取成本高以及隱私受限等問題,通過合成數據擴展訓練集并提升數據質量,為模型訓練提供穩定的數據基礎。
在此之上,隨著數據可獲得性的提升,研究重點逐漸轉向模型中心人工智能(Model-centric AI),此時合成數據不僅用于補充數據,還被用于能力注入,例如提升模型的推理、編碼與對齊能力,并構建可控的評測基準。
進一步地,隨著模型能力的增強,對系統可靠性的需求不斷提高,催生了可信人工智能(Trustworthy AI),在這一階段,合成數據被廣泛用于隱私保護、安全防護、公平性提升以及模型可解釋性分析。
最后,合成數據的應用從數字空間走向現實世界,對應的是具身智能(Embodied AI),其目標是支持感知、交互與泛化能力,使智能體能夠在復雜物理環境中進行決策與行動。下表給出了整體結構(具體細節可參考原論文):
![]()
進一步地,文章將上述四類應用場景細化到了 30+ 個具體機器學習任務層級,從而構建起從宏觀分類到具體問題的系統化映射。
如下圖所示,每一類場景都被進一步拆解為多個典型問題:例如,在數據中心人工智能中,涵蓋了零/少樣本學習、聯邦學習、無數據學習、數據蒸餾等任務;在模型中心人工智能中,則進一步細化為模型通用能力提升,以及推理、編碼、指令對齊等特定能力的增強,同時也包括基于合成數據的模型評測任務;
在可信人工智能中,主要聚焦于隱私保護、模型攻擊、安全防護、長尾學習與可解釋性等任務;而在具身智能中,則進一步延伸到感知、交互以及跨場景泛化等面向真實環境的任務。
![]()
最后,合成數據面臨哪些挑戰與機遇?
盡管在方法體系與應用落地方面已經取得了顯著進展,但合成數據仍處于快速發展階段,仍然存在一系列關鍵挑戰有待解決。
隨著模型越來越多地依賴自生成數據進行訓練,一個核心風險逐漸顯現:模型坍塌(model collapse)。當模型反復在自身生成的數據上迭代訓練時,可能導致分布逐漸收縮,數據多樣性下降,從而影響模型性能與泛化能力。
在實際應用中,如何在數據效用與隱私保護之間取得平衡,仍然是一個長期存在的問題,即所謂的數據效用與隱私保護的權衡(utility–privacy tradeoff)。過強的隱私約束可能降低數據可用性,而過高的數據保真度又可能帶來潛在的隱私泄露風險。
當合成數據被用于模型評測時,還可能引入新的偏差來源。例如,生成-評測偏差(generation–evaluation bias)指的是模型在由相似生成機制產生的測試數據上表現更優,從而導致評估結果失真,影響對模型真實能力的判斷。
在方法層面,多個前沿方向也仍有待探索。例如,主動式數據合成(active data synthesis)強調根據模型需求動態生成最有價值的數據,以提升數據利用效率;而多模態數據合成(multi-modal data synthesis)則關注如何生成語義一致、跨模態對齊的高質量數據,這對于多模態模型的發展尤為關鍵。
最后,一個基礎但尚未完全解決的問題是:如何系統性評估合成數據的質量。這不僅包括數據的有效性(utility)與多樣性(diversity),還涉及隱私(privacy)與安全性(security)等多個維度,目前仍缺乏統一且標準化的評測體系。
下圖給出了該綜述的總體整理框架,具體細節可參考原文。
![]()
這篇綜述最值得關注的地方,不只是整理了現有方法,更重要的是它改變了我們理解合成數據的方式: 合成數據不再只是生成模型的一個應用方向,而正在成為連接數據、模型、評測與真實世界交互的新型基礎設施。
如果說過去AI的競爭核心是「誰擁有更多真實數據」,那么未來很可能會變成「誰能更高效、更安全、更可控地生成高價值數據」。
參考資料:
https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.