![]()
張劍清是一名上海交通大學(xué)在讀博士生,獲中國人工智能學(xué)會「青托」、吳文俊人工智能榮譽(yù)博士及國家獎學(xué)金。在代碼大模型、合成數(shù)據(jù)集進(jìn)化生成、聯(lián)邦學(xué)習(xí)與推薦系統(tǒng)方向取得系列成果,主要關(guān)注其中的垂域自適應(yīng)、模型融合、模型個性化主題,于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等發(fā)表9篇CCF-A一作論文,主導(dǎo)并開源了PFLlib、HtFLlib、EvolveGen等項(xiàng)目,曾在字節(jié)跳動、清華AIR、KAUST、騰訊等機(jī)構(gòu)實(shí)習(xí)交流。
數(shù)據(jù)短缺問題隨著大模型的高速發(fā)展,日益加劇。已經(jīng)有不少 Nature 論文指出,預(yù)計(jì)到 2028 年,公共數(shù)據(jù)的產(chǎn)生速度將因趕不上大模型訓(xùn)練的消耗速度而被耗盡。而在某些特殊領(lǐng)域,比如醫(yī)療、工業(yè)制造等,原本可用數(shù)據(jù)就非常少,數(shù)據(jù)短缺的問題更嚴(yán)重。
為了解決這一困境,我們提出了合成數(shù)據(jù)自主進(jìn)化框架 PCEvolve:只需提供少量標(biāo)注樣本,就可在保護(hù)隱私同時進(jìn)化出一整個數(shù)據(jù)集。PCEvolve 的進(jìn)化過程類似 DeepMind 提出的 FunSearch 和 AlphaEvolve。
![]()
- 論文標(biāo)題:PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs
- 論文鏈接:https://www.arxiv.org/abs/2506.05407
- 開源代碼:https://github.com/TsingZ0/PCEvolve
- 進(jìn)化生成開源平臺:https://github.com/TsingZ0/EvolveGen
現(xiàn)有大模型 API 并不能拿來直接合成垂域數(shù)據(jù)
垂直領(lǐng)域的中小企業(yè)普遍不具備訓(xùn)練私有大模型的能力,而傾向于使用現(xiàn)成的大模型 API(下文簡稱「大模型」)。人造合成數(shù)據(jù)是目前解決數(shù)據(jù)短缺問題所采用的主流方法:讓已有大模型生成數(shù)據(jù),再進(jìn)行篩選、標(biāo)注、清洗等步驟,得到高質(zhì)量訓(xùn)練數(shù)據(jù)。
然而,當(dāng)應(yīng)用到垂直領(lǐng)域,如醫(yī)療、工業(yè)制造等領(lǐng)域,大模型雖然能夠根據(jù) prompt 生成對應(yīng)的數(shù)據(jù),但滿足「語義匹配」的數(shù)據(jù),并不能直接拿來作為垂直領(lǐng)域數(shù)據(jù)使用。這是因?yàn)椋捍怪鳖I(lǐng)域的數(shù)據(jù)還有各種其他特性信息,比如光照、數(shù)據(jù)采樣設(shè)備型號、隱私信息、上下文等。
舉例來說,皮革在不同環(huán)境、材質(zhì)、磨損程度等方面,都具備太多細(xì)節(jié)信息,而提供給大模型的 prompt 很難完整描述;即便完整描述,大模型也不能完全生成符合 prompt 的數(shù)據(jù),因?yàn)榇竽P捅旧磉€無法完全模擬世界。
如下圖所示,大模型生成的數(shù)據(jù),和垂域攝像機(jī)拍攝的數(shù)據(jù),具有巨大的差距,雖然標(biāo)簽都是「帶有膠水殘留的皮革」。同樣的,在文本領(lǐng)域,讓現(xiàn)成的大模型生成的 code snippet 數(shù)據(jù),也無法與某公司內(nèi)部開發(fā)人員的代碼習(xí)慣和代碼規(guī)范相匹配。而且,這一垂域數(shù)據(jù)特征分布差異的問題,在任意模態(tài)都存在。
![]()
【圖 1】左邊為大模型生成,右邊為實(shí)際采集。在工業(yè)制造皮革領(lǐng)域,大模型生成圖片和實(shí)際采集圖片的對比
同時,因?yàn)榇褂驍?shù)據(jù)可能因?yàn)橹R產(chǎn)權(quán)、隱私保護(hù)、行業(yè)規(guī)范等原因,本地?cái)?shù)據(jù)不允許上傳給大模型作 context,極大地增加了 prompt 工程的難度、降低了合成數(shù)據(jù)的質(zhì)量。比如,公司內(nèi)部的代碼不能上傳、醫(yī)院的病人數(shù)據(jù)不能上傳、企業(yè)的次品樣品數(shù)據(jù)不能上傳等等。
PCEvolve:保護(hù)隱私的合成數(shù)據(jù)進(jìn)化框架
垂域數(shù)據(jù)除了不能上傳之外,還具有本身就稀少的特性,導(dǎo)致帶標(biāo)注的垂域樣本原本就少。這使得其他要求提供大量標(biāo)注樣本的方法(如 PE 等),不再可用。因?yàn)?PE 等方法在垂域情況下,為了保護(hù)隱私所加的噪聲過大,使其方法退化為一種隨機(jī)方法。而我們的 PCEvolve 在進(jìn)化過程中設(shè)計(jì)了一種基于「指數(shù)機(jī)制」(Exponential Mechanism)的新的隱私保護(hù)方法,適配垂域場景的少樣本情況。
下圖是 PCEvolve 的架構(gòu)圖,左邊是迭代進(jìn)化框架:類似達(dá)爾文進(jìn)化論,先讓大模型 API 生成較大數(shù)量的候選合成數(shù)據(jù)(種群),再經(jīng)過【選擇器】(自然選擇)進(jìn)行淘汰,最后將不帶隱私信息的優(yōu)質(zhì)合成數(shù)據(jù)返回給大模型進(jìn)行下一輪進(jìn)化。右邊則是進(jìn)化框架的「引擎」【選擇器】的詳細(xì)設(shè)計(jì):以隱私數(shù)據(jù)作為參考(verifier)給合成數(shù)據(jù)打分(reward),最后根據(jù)分?jǐn)?shù)優(yōu)勝劣汰;其中打分過程,因?yàn)橛玫搅穗[私數(shù)據(jù),需要作隱私保護(hù)。
![]()
【圖 2】PCEvolve 架構(gòu)圖
PCEvolve 選擇器詳細(xì)設(shè)計(jì)
首先我們先聲明:下面所有的操作都需要考慮隱私保護(hù),我們采用的是差分隱私(Differential Privacy, DP),并通過指數(shù)機(jī)制來實(shí)現(xiàn) DP,其中指數(shù)機(jī)制定義為:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
- 執(zhí)行指數(shù)機(jī)制選擇存活樣本因?yàn)樵谖覀兊木脑O(shè)計(jì)下,使得指數(shù)機(jī)制得以滿足,DP 得以保證。所以這一步變得簡單:我們只需要執(zhí)行指數(shù)機(jī)制定義的概率采樣,即可得到帶有隱私保護(hù)的高質(zhì)量合成數(shù)據(jù)選擇結(jié)果。
在醫(yī)療場景和工業(yè)制造場景的實(shí)驗(yàn)結(jié)果
我們主要通過兩種方式驗(yàn)證 PCEvolve 的效果:a) 合成的數(shù)據(jù)對于下游模型訓(xùn)練的增幅,b) 合成數(shù)據(jù)本身的質(zhì)量。
a) 合成的數(shù)據(jù)對于下游模型訓(xùn)練的增幅
我們評估了 PCEvolve 在COVIDx(COVID-19 胸部 X 線圖像)、Came17(乳腺癌轉(zhuǎn)移的腫瘤組織切片)、KVASIR-f(用于胃腸道異常檢測的內(nèi)鏡圖像)、MVAD-l(用于異常檢測的皮革表面)上的表現(xiàn),這里大模型方面我們只需提供 API 即可。
![]()
【表 1】在四個特殊領(lǐng)域數(shù)據(jù)集上的精度(%)
b) 合成數(shù)據(jù)本身的質(zhì)量
下圖是我們采樣的皮革表面數(shù)據(jù),這三行分別代表正常皮革、有切割缺陷的皮革、有膠水殘留缺陷的皮革。「Initial」表示大模型 API 合成的圖像(進(jìn)化之前);「Private」表示垂域場景真實(shí)采集的隱私皮革表面數(shù)據(jù)。
![]()
【圖 3】皮革表面圖像數(shù)據(jù)。
其他更多實(shí)驗(yàn)詳見論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.