網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

港大團(tuán)隊(duì)發(fā)明"煉金術(shù)師"讓AI挑食變聰明

2025-12-22 21:26:23　來源: 科技行者

北京舉報(bào)

分享至

數(shù)據(jù)就像食材，質(zhì)量決定成品。這項(xiàng)由香港大學(xué)丁凱鑫領(lǐng)導(dǎo)，聯(lián)合華南理工大學(xué)周陽以及快手科技Kling團(tuán)隊(duì)共同完成的研究，于2024年12月發(fā)表在arXiv平臺(tái)（論文編號(hào)：2512.16905v1），首次為文本生成圖像模型訓(xùn)練帶來了革命性的數(shù)據(jù)篩選方法。

這里有個(gè)令人驚訝的發(fā)現(xiàn)：就像一位挑食的廚師只選最好的食材，研究團(tuán)隊(duì)開發(fā)的"煉金術(shù)師"（Alchemist）系統(tǒng)能夠從海量圖片數(shù)據(jù)中精準(zhǔn)挑選出最有價(jià)值的一半，訓(xùn)練出的AI模型不僅質(zhì)量更好，訓(xùn)練速度還快了5倍。更讓人驚喜的是，用這一半精選數(shù)據(jù)訓(xùn)練出的模型，竟然比用全部數(shù)據(jù)訓(xùn)練的模型表現(xiàn)還要出色。

想象一下，你要教一個(gè)孩子畫畫，是給他看一萬張雜亂無章的涂鴉更有效，還是精心挑選五千張優(yōu)質(zhì)作品更有效？答案顯而易見。現(xiàn)在的AI圖像生成模型，如Stable Diffusion、FLUX等，就面臨著同樣的問題。它們需要從網(wǎng)絡(luò)上爬取的數(shù)百萬張圖片中學(xué)習(xí)，但這些圖片質(zhì)量參差不齊，有些模糊不清，有些內(nèi)容重復(fù)，有些甚至是廣告背景圖。

傳統(tǒng)的數(shù)據(jù)篩選方法就像用篩子篩米粒，只能按照單一標(biāo)準(zhǔn)過濾，比如只看圖片清晰度或者只看文字匹配度。而"煉金術(shù)師"更像是一位經(jīng)驗(yàn)豐富的美食評(píng)委，它能同時(shí)考慮多個(gè)維度，不僅看"菜品"的賣相，還要品嘗口感，甚至考慮營養(yǎng)搭配。

研究團(tuán)隊(duì)的核心創(chuàng)新在于讓AI學(xué)會(huì)"自我評(píng)判"。他們訓(xùn)練了一個(gè)專門的評(píng)分員模型，這個(gè)評(píng)分員就像是一位資深的藝術(shù)老師，能夠判斷每張圖片對(duì)整個(gè)學(xué)習(xí)過程的價(jià)值。有趣的是，這個(gè)評(píng)分員不是簡單地給圖片打分，而是通過觀察AI模型在學(xué)習(xí)過程中的"反應(yīng)"來判斷數(shù)據(jù)的價(jià)值。

具體來說，如果一張圖片能讓AI模型學(xué)到新知識(shí)并快速改進(jìn)，那就是好數(shù)據(jù)；如果一張圖片讓模型學(xué)了半天也沒什么進(jìn)步，那就可能是無用數(shù)據(jù)。這就像觀察學(xué)生做習(xí)題時(shí)的表情和進(jìn)步速度，來判斷這道題是否適合他們一樣。

更巧妙的是，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)違反直覺的現(xiàn)象：那些看起來最"簡單"的圖片，比如純白背景的產(chǎn)品圖，雖然能讓AI快速收斂，但實(shí)際上對(duì)提升模型能力幫助不大。相反，那些內(nèi)容豐富、稍有挑戰(zhàn)性的圖片，才是真正的"營養(yǎng)品"。這就像學(xué)習(xí)數(shù)學(xué)，一直做最簡單的加法題雖然不會(huì)出錯(cuò)，但對(duì)提升數(shù)學(xué)能力沒有幫助，適當(dāng)難度的題目才能真正鍛煉思維能力。

為了驗(yàn)證這個(gè)發(fā)現(xiàn)，研究團(tuán)隊(duì)追蹤了不同評(píng)分區(qū)間圖片的訓(xùn)練動(dòng)態(tài)。他們發(fā)現(xiàn)，評(píng)分最高的圖片雖然訓(xùn)練損失很低，但梯度變化也很小，說明模型從中學(xué)不到太多新東西。而中等評(píng)分的圖片則展現(xiàn)出活躍的梯度動(dòng)態(tài)，表明模型正在積極學(xué)習(xí)。評(píng)分最低的圖片梯度幾乎不下降，說明這些數(shù)據(jù)可能過于混亂或困難。

基于這個(gè)洞察，團(tuán)隊(duì)提出了"偏移高斯采樣"策略。傳統(tǒng)方法會(huì)選擇評(píng)分最高的數(shù)據(jù)，但他們發(fā)現(xiàn)最有效的方法是避開評(píng)分過高的"簡單"數(shù)據(jù)，重點(diǎn)選擇中等偏上評(píng)分的"有營養(yǎng)"數(shù)據(jù)。這就像制定健身計(jì)劃，不選擇過于輕松的運(yùn)動(dòng)（沒有鍛煉效果），也不選擇過于困難的運(yùn)動(dòng)（容易受傷），而是選擇適當(dāng)強(qiáng)度的運(yùn)動(dòng)來獲得最佳效果。

為了更好地評(píng)估數(shù)據(jù)質(zhì)量，研究團(tuán)隊(duì)還設(shè)計(jì)了"多粒度感知"機(jī)制。這個(gè)機(jī)制不僅看單張圖片的質(zhì)量，還考慮整批數(shù)據(jù)的搭配。就像營養(yǎng)師不僅關(guān)注單個(gè)食材的營養(yǎng)價(jià)值，還要考慮整餐的營養(yǎng)搭配一樣。他們?cè)谠u(píng)分系統(tǒng)中加入了群組感知模塊，能夠捕捉每批數(shù)據(jù)的整體特征，避免因批次差異帶來的評(píng)分偏差。

實(shí)驗(yàn)結(jié)果令人印象深刻。在LAION-30M數(shù)據(jù)集上，使用"煉金術(shù)師"選擇的15M數(shù)據(jù)訓(xùn)練的模型，在圖像質(zhì)量（FID指標(biāo)從19.70降至16.20）和文本匹配度（CLIP評(píng)分從0.2220升至0.2325）方面都明顯超過了隨機(jī)選擇的15M數(shù)據(jù)。更令人驚喜的是，僅用6M精選數(shù)據(jù)就能達(dá)到與15M隨機(jī)數(shù)據(jù)相當(dāng)?shù)男Ч?xùn)練時(shí)間縮短了5倍。

這種方法的通用性也得到了驗(yàn)證。研究團(tuán)隊(duì)在不同類型的數(shù)據(jù)集上進(jìn)行了測(cè)試，包括網(wǎng)絡(luò)爬取的LAION數(shù)據(jù)、高質(zhì)量合成的Flux-reason數(shù)據(jù)，以及包含人類偏好標(biāo)注的HPDv3數(shù)據(jù)。無論在哪種數(shù)據(jù)類型上，"煉金術(shù)師"都能顯著提升訓(xùn)練效率和模型質(zhì)量。

更重要的是，這個(gè)系統(tǒng)展現(xiàn)出了良好的跨模型適用性。用小模型評(píng)分選出的數(shù)據(jù)，能夠有效提升大模型的性能。這就像用經(jīng)驗(yàn)豐富的教練選擇訓(xùn)練方法，不僅適用于業(yè)余選手，對(duì)專業(yè)選手也同樣有效。研究團(tuán)隊(duì)用0.3B參數(shù)的小模型做數(shù)據(jù)篩選，成功提升了0.9B大模型和不同架構(gòu)FLUX模型的性能。

從數(shù)據(jù)分布來看，"煉金術(shù)師"選擇的結(jié)果與人類直覺高度吻合。在按評(píng)分排序的數(shù)據(jù)中，0-20%的高分區(qū)域主要是簡潔的產(chǎn)品圖和純色背景圖，雖然干凈但信息量有限；30-80%的中分區(qū)域包含了內(nèi)容豐富、主題明確的優(yōu)質(zhì)圖片；80-100%的低分區(qū)域則充斥著噪聲圖片、多對(duì)象混亂場(chǎng)景等低質(zhì)量內(nèi)容。"煉金術(shù)師"的策略正是專注于那個(gè)"金中間"區(qū)域，在保持學(xué)習(xí)效率的同時(shí)最大化信息獲取。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。在當(dāng)前數(shù)據(jù)成本日益高昂的背景下，如何高效利用數(shù)據(jù)成為了AI發(fā)展的關(guān)鍵瓶頸。"煉金術(shù)師"提供的不是簡單的數(shù)據(jù)壓縮，而是智能的數(shù)據(jù)提純。它讓我們重新思考"更多數(shù)據(jù)就是更好結(jié)果"這一傳統(tǒng)觀念，轉(zhuǎn)而追求"更好數(shù)據(jù)帶來更優(yōu)結(jié)果"的新范式。

從實(shí)際應(yīng)用角度來看，這項(xiàng)技術(shù)能夠顯著降低AI模型訓(xùn)練的資源消耗。對(duì)于想要訓(xùn)練定制化圖像生成模型的公司來說，不再需要準(zhǔn)備海量數(shù)據(jù)，而是可以通過智能篩選獲得更高效的訓(xùn)練效果。這不僅降低了技術(shù)門檻，也為中小企業(yè)進(jìn)入AI領(lǐng)域提供了新的可能。

值得注意的是，研究團(tuán)隊(duì)選擇了自回歸結(jié)構(gòu)作為代理模型，而不是常見的擴(kuò)散模型。原因在于自回歸模型的單步生成過程能夠提供更穩(wěn)定的梯度信號(hào)，避免了擴(kuò)散模型在某些時(shí)間步可能產(chǎn)生誤導(dǎo)性優(yōu)化信號(hào)的問題。這個(gè)設(shè)計(jì)選擇體現(xiàn)了研究團(tuán)隊(duì)對(duì)技術(shù)細(xì)節(jié)的深度思考。

這項(xiàng)研究也揭示了圖像數(shù)據(jù)與文本數(shù)據(jù)的本質(zhì)區(qū)別。在語言模型訓(xùn)練中，更干凈的文本通常意味著更高的信息價(jià)值，但在圖像領(lǐng)域恰恰相反。圖像本身包含大量視覺冗余，過于"干凈"的圖像往往信息量有限，而適度復(fù)雜的圖像才能提供豐富的學(xué)習(xí)信號(hào)。這種領(lǐng)域特異性的洞察，為未來的多模態(tài)AI研究提供了重要啟示。

研究團(tuán)隊(duì)還進(jìn)行了詳盡的消融實(shí)驗(yàn)，驗(yàn)證了系統(tǒng)各個(gè)組件的重要性。他們發(fā)現(xiàn)，群組感知機(jī)制能將性能從CLIP評(píng)分0.2272提升到0.2277，看似微小的提升實(shí)際上在大規(guī)模訓(xùn)練中意義重大。偏移高斯采樣相比傳統(tǒng)的Top-K選擇，在FID指標(biāo)上有顯著優(yōu)勢(shì)，進(jìn)一步證明了"適度挑戰(zhàn)"原則的有效性。

從技術(shù)實(shí)現(xiàn)角度，"煉金術(shù)師"系統(tǒng)設(shè)計(jì)精巧而高效。評(píng)分網(wǎng)絡(luò)采用輕量級(jí)設(shè)計(jì)，訓(xùn)練成本相比主模型幾乎可以忽略不計(jì)，但能夠在多個(gè)下游任務(wù)間復(fù)用。這種一次投入、多次受益的設(shè)計(jì)思路，讓該技術(shù)具備了實(shí)際部署的可行性。

展望未來，這項(xiàng)研究為數(shù)據(jù)中心的AI訓(xùn)練帶來了新的思路。傳統(tǒng)的做法是收集盡可能多的數(shù)據(jù)，然后投入巨大的計(jì)算資源進(jìn)行訓(xùn)練。而"煉金術(shù)師"展示的是另一條路徑：通過智能的數(shù)據(jù)篩選，用更少但更優(yōu)質(zhì)的數(shù)據(jù)達(dá)到更好的效果。這不僅是技術(shù)進(jìn)步，更是資源利用方式的根本性改變。

這種數(shù)據(jù)篩選方法還可能影響數(shù)據(jù)收集策略。既然我們知道什么樣的數(shù)據(jù)更有價(jià)值，那么在數(shù)據(jù)收集階段就可以有針對(duì)性地尋找這類數(shù)據(jù)，而不是盲目地?cái)U(kuò)大數(shù)據(jù)規(guī)模。這將推動(dòng)整個(gè)行業(yè)從"量"的競(jìng)爭轉(zhuǎn)向"質(zhì)"的競(jìng)爭，催生更加精細(xì)化的數(shù)據(jù)工程實(shí)踐。

總而言之，"煉金術(shù)師"不僅是一個(gè)技術(shù)創(chuàng)新，更是一個(gè)理念突破。它告訴我們，在AI訓(xùn)練這道菜譜中，選對(duì)食材比增加分量更重要。通過讓AI學(xué)會(huì)自我評(píng)判和選擇，我們不僅能獲得更好的模型性能，還能以更可持續(xù)的方式推進(jìn)AI技術(shù)的發(fā)展。這項(xiàng)研究為未來的數(shù)據(jù)驅(qū)動(dòng)AI研究指明了新的方向，相信會(huì)啟發(fā)更多創(chuàng)新性的解決方案。

Q&A

Q1：煉金術(shù)師Alchemist如何判斷哪些圖片數(shù)據(jù)更有價(jià)值？

A：煉金術(shù)師通過觀察AI模型在學(xué)習(xí)過程中的"反應(yīng)"來判斷數(shù)據(jù)價(jià)值，如果一張圖片能讓模型學(xué)到新知識(shí)并快速改進(jìn)就是好數(shù)據(jù)，如果讓模型學(xué)了半天沒進(jìn)步就是無用數(shù)據(jù)，類似觀察學(xué)生做題時(shí)的表情來判斷題目是否合適。

Q2：為什么用一半數(shù)據(jù)訓(xùn)練出的模型比用全部數(shù)據(jù)還要好？

A：因?yàn)椴⒎撬袛?shù)據(jù)都有價(jià)值，就像教孩子畫畫時(shí)精選5000張優(yōu)質(zhì)作品比給他看10000張雜亂涂鴉更有效。煉金術(shù)師發(fā)現(xiàn)那些看起來最簡單的圖片雖然不會(huì)出錯(cuò)但學(xué)不到東西，而內(nèi)容豐富、稍有挑戰(zhàn)的圖片才是真正的營養(yǎng)品。

Q3：煉金術(shù)師的數(shù)據(jù)篩選方法能在其他AI模型上使用嗎？

A：可以，研究顯示這種方法具有良好的通用性和跨模型適用性。無論是網(wǎng)絡(luò)數(shù)據(jù)、合成數(shù)據(jù)還是不同架構(gòu)的模型都能有效提升，就像經(jīng)驗(yàn)豐富的教練選擇的訓(xùn)練方法既適合業(yè)余選手也適合專業(yè)選手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.