![]()
數(shù)據(jù)就像食材,質(zhì)量決定成品。這項(xiàng)由香港大學(xué)丁凱鑫領(lǐng)導(dǎo),聯(lián)合華南理工大學(xué)周陽以及快手科技Kling團(tuán)隊(duì)共同完成的研究,于2024年12月發(fā)表在arXiv平臺(tái)(論文編號(hào):2512.16905v1),首次為文本生成圖像模型訓(xùn)練帶來了革命性的數(shù)據(jù)篩選方法。
這里有個(gè)令人驚訝的發(fā)現(xiàn):就像一位挑食的廚師只選最好的食材,研究團(tuán)隊(duì)開發(fā)的"煉金術(shù)師"(Alchemist)系統(tǒng)能夠從海量圖片數(shù)據(jù)中精準(zhǔn)挑選出最有價(jià)值的一半,訓(xùn)練出的AI模型不僅質(zhì)量更好,訓(xùn)練速度還快了5倍。更讓人驚喜的是,用這一半精選數(shù)據(jù)訓(xùn)練出的模型,竟然比用全部數(shù)據(jù)訓(xùn)練的模型表現(xiàn)還要出色。
想象一下,你要教一個(gè)孩子畫畫,是給他看一萬張雜亂無章的涂鴉更有效,還是精心挑選五千張優(yōu)質(zhì)作品更有效?答案顯而易見。現(xiàn)在的AI圖像生成模型,如Stable Diffusion、FLUX等,就面臨著同樣的問題。它們需要從網(wǎng)絡(luò)上爬取的數(shù)百萬張圖片中學(xué)習(xí),但這些圖片質(zhì)量參差不齊,有些模糊不清,有些內(nèi)容重復(fù),有些甚至是廣告背景圖。
傳統(tǒng)的數(shù)據(jù)篩選方法就像用篩子篩米粒,只能按照單一標(biāo)準(zhǔn)過濾,比如只看圖片清晰度或者只看文字匹配度。而"煉金術(shù)師"更像是一位經(jīng)驗(yàn)豐富的美食評(píng)委,它能同時(shí)考慮多個(gè)維度,不僅看"菜品"的賣相,還要品嘗口感,甚至考慮營養(yǎng)搭配。
研究團(tuán)隊(duì)的核心創(chuàng)新在于讓AI學(xué)會(huì)"自我評(píng)判"。他們訓(xùn)練了一個(gè)專門的評(píng)分員模型,這個(gè)評(píng)分員就像是一位資深的藝術(shù)老師,能夠判斷每張圖片對(duì)整個(gè)學(xué)習(xí)過程的價(jià)值。有趣的是,這個(gè)評(píng)分員不是簡單地給圖片打分,而是通過觀察AI模型在學(xué)習(xí)過程中的"反應(yīng)"來判斷數(shù)據(jù)的價(jià)值。
具體來說,如果一張圖片能讓AI模型學(xué)到新知識(shí)并快速改進(jìn),那就是好數(shù)據(jù);如果一張圖片讓模型學(xué)了半天也沒什么進(jìn)步,那就可能是無用數(shù)據(jù)。這就像觀察學(xué)生做習(xí)題時(shí)的表情和進(jìn)步速度,來判斷這道題是否適合他們一樣。
更巧妙的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)違反直覺的現(xiàn)象:那些看起來最"簡單"的圖片,比如純白背景的產(chǎn)品圖,雖然能讓AI快速收斂,但實(shí)際上對(duì)提升模型能力幫助不大。相反,那些內(nèi)容豐富、稍有挑戰(zhàn)性的圖片,才是真正的"營養(yǎng)品"。這就像學(xué)習(xí)數(shù)學(xué),一直做最簡單的加法題雖然不會(huì)出錯(cuò),但對(duì)提升數(shù)學(xué)能力沒有幫助,適當(dāng)難度的題目才能真正鍛煉思維能力。
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)追蹤了不同評(píng)分區(qū)間圖片的訓(xùn)練動(dòng)態(tài)。他們發(fā)現(xiàn),評(píng)分最高的圖片雖然訓(xùn)練損失很低,但梯度變化也很小,說明模型從中學(xué)不到太多新東西。而中等評(píng)分的圖片則展現(xiàn)出活躍的梯度動(dòng)態(tài),表明模型正在積極學(xué)習(xí)。評(píng)分最低的圖片梯度幾乎不下降,說明這些數(shù)據(jù)可能過于混亂或困難。
基于這個(gè)洞察,團(tuán)隊(duì)提出了"偏移高斯采樣"策略。傳統(tǒng)方法會(huì)選擇評(píng)分最高的數(shù)據(jù),但他們發(fā)現(xiàn)最有效的方法是避開評(píng)分過高的"簡單"數(shù)據(jù),重點(diǎn)選擇中等偏上評(píng)分的"有營養(yǎng)"數(shù)據(jù)。這就像制定健身計(jì)劃,不選擇過于輕松的運(yùn)動(dòng)(沒有鍛煉效果),也不選擇過于困難的運(yùn)動(dòng)(容易受傷),而是選擇適當(dāng)強(qiáng)度的運(yùn)動(dòng)來獲得最佳效果。
為了更好地評(píng)估數(shù)據(jù)質(zhì)量,研究團(tuán)隊(duì)還設(shè)計(jì)了"多粒度感知"機(jī)制。這個(gè)機(jī)制不僅看單張圖片的質(zhì)量,還考慮整批數(shù)據(jù)的搭配。就像營養(yǎng)師不僅關(guān)注單個(gè)食材的營養(yǎng)價(jià)值,還要考慮整餐的營養(yǎng)搭配一樣。他們?cè)谠u(píng)分系統(tǒng)中加入了群組感知模塊,能夠捕捉每批數(shù)據(jù)的整體特征,避免因批次差異帶來的評(píng)分偏差。
實(shí)驗(yàn)結(jié)果令人印象深刻。在LAION-30M數(shù)據(jù)集上,使用"煉金術(shù)師"選擇的15M數(shù)據(jù)訓(xùn)練的模型,在圖像質(zhì)量(FID指標(biāo)從19.70降至16.20)和文本匹配度(CLIP評(píng)分從0.2220升至0.2325)方面都明顯超過了隨機(jī)選擇的15M數(shù)據(jù)。更令人驚喜的是,僅用6M精選數(shù)據(jù)就能達(dá)到與15M隨機(jī)數(shù)據(jù)相當(dāng)?shù)男Ч?xùn)練時(shí)間縮短了5倍。
這種方法的通用性也得到了驗(yàn)證。研究團(tuán)隊(duì)在不同類型的數(shù)據(jù)集上進(jìn)行了測(cè)試,包括網(wǎng)絡(luò)爬取的LAION數(shù)據(jù)、高質(zhì)量合成的Flux-reason數(shù)據(jù),以及包含人類偏好標(biāo)注的HPDv3數(shù)據(jù)。無論在哪種數(shù)據(jù)類型上,"煉金術(shù)師"都能顯著提升訓(xùn)練效率和模型質(zhì)量。
更重要的是,這個(gè)系統(tǒng)展現(xiàn)出了良好的跨模型適用性。用小模型評(píng)分選出的數(shù)據(jù),能夠有效提升大模型的性能。這就像用經(jīng)驗(yàn)豐富的教練選擇訓(xùn)練方法,不僅適用于業(yè)余選手,對(duì)專業(yè)選手也同樣有效。研究團(tuán)隊(duì)用0.3B參數(shù)的小模型做數(shù)據(jù)篩選,成功提升了0.9B大模型和不同架構(gòu)FLUX模型的性能。
從數(shù)據(jù)分布來看,"煉金術(shù)師"選擇的結(jié)果與人類直覺高度吻合。在按評(píng)分排序的數(shù)據(jù)中,0-20%的高分區(qū)域主要是簡潔的產(chǎn)品圖和純色背景圖,雖然干凈但信息量有限;30-80%的中分區(qū)域包含了內(nèi)容豐富、主題明確的優(yōu)質(zhì)圖片;80-100%的低分區(qū)域則充斥著噪聲圖片、多對(duì)象混亂場(chǎng)景等低質(zhì)量內(nèi)容。"煉金術(shù)師"的策略正是專注于那個(gè)"金中間"區(qū)域,在保持學(xué)習(xí)效率的同時(shí)最大化信息獲取。
這項(xiàng)研究的意義遠(yuǎn)超技術(shù)本身。在當(dāng)前數(shù)據(jù)成本日益高昂的背景下,如何高效利用數(shù)據(jù)成為了AI發(fā)展的關(guān)鍵瓶頸。"煉金術(shù)師"提供的不是簡單的數(shù)據(jù)壓縮,而是智能的數(shù)據(jù)提純。它讓我們重新思考"更多數(shù)據(jù)就是更好結(jié)果"這一傳統(tǒng)觀念,轉(zhuǎn)而追求"更好數(shù)據(jù)帶來更優(yōu)結(jié)果"的新范式。
從實(shí)際應(yīng)用角度來看,這項(xiàng)技術(shù)能夠顯著降低AI模型訓(xùn)練的資源消耗。對(duì)于想要訓(xùn)練定制化圖像生成模型的公司來說,不再需要準(zhǔn)備海量數(shù)據(jù),而是可以通過智能篩選獲得更高效的訓(xùn)練效果。這不僅降低了技術(shù)門檻,也為中小企業(yè)進(jìn)入AI領(lǐng)域提供了新的可能。
值得注意的是,研究團(tuán)隊(duì)選擇了自回歸結(jié)構(gòu)作為代理模型,而不是常見的擴(kuò)散模型。原因在于自回歸模型的單步生成過程能夠提供更穩(wěn)定的梯度信號(hào),避免了擴(kuò)散模型在某些時(shí)間步可能產(chǎn)生誤導(dǎo)性優(yōu)化信號(hào)的問題。這個(gè)設(shè)計(jì)選擇體現(xiàn)了研究團(tuán)隊(duì)對(duì)技術(shù)細(xì)節(jié)的深度思考。
這項(xiàng)研究也揭示了圖像數(shù)據(jù)與文本數(shù)據(jù)的本質(zhì)區(qū)別。在語言模型訓(xùn)練中,更干凈的文本通常意味著更高的信息價(jià)值,但在圖像領(lǐng)域恰恰相反。圖像本身包含大量視覺冗余,過于"干凈"的圖像往往信息量有限,而適度復(fù)雜的圖像才能提供豐富的學(xué)習(xí)信號(hào)。這種領(lǐng)域特異性的洞察,為未來的多模態(tài)AI研究提供了重要啟示。
研究團(tuán)隊(duì)還進(jìn)行了詳盡的消融實(shí)驗(yàn),驗(yàn)證了系統(tǒng)各個(gè)組件的重要性。他們發(fā)現(xiàn),群組感知機(jī)制能將性能從CLIP評(píng)分0.2272提升到0.2277,看似微小的提升實(shí)際上在大規(guī)模訓(xùn)練中意義重大。偏移高斯采樣相比傳統(tǒng)的Top-K選擇,在FID指標(biāo)上有顯著優(yōu)勢(shì),進(jìn)一步證明了"適度挑戰(zhàn)"原則的有效性。
從技術(shù)實(shí)現(xiàn)角度,"煉金術(shù)師"系統(tǒng)設(shè)計(jì)精巧而高效。評(píng)分網(wǎng)絡(luò)采用輕量級(jí)設(shè)計(jì),訓(xùn)練成本相比主模型幾乎可以忽略不計(jì),但能夠在多個(gè)下游任務(wù)間復(fù)用。這種一次投入、多次受益的設(shè)計(jì)思路,讓該技術(shù)具備了實(shí)際部署的可行性。
展望未來,這項(xiàng)研究為數(shù)據(jù)中心的AI訓(xùn)練帶來了新的思路。傳統(tǒng)的做法是收集盡可能多的數(shù)據(jù),然后投入巨大的計(jì)算資源進(jìn)行訓(xùn)練。而"煉金術(shù)師"展示的是另一條路徑:通過智能的數(shù)據(jù)篩選,用更少但更優(yōu)質(zhì)的數(shù)據(jù)達(dá)到更好的效果。這不僅是技術(shù)進(jìn)步,更是資源利用方式的根本性改變。
這種數(shù)據(jù)篩選方法還可能影響數(shù)據(jù)收集策略。既然我們知道什么樣的數(shù)據(jù)更有價(jià)值,那么在數(shù)據(jù)收集階段就可以有針對(duì)性地尋找這類數(shù)據(jù),而不是盲目地?cái)U(kuò)大數(shù)據(jù)規(guī)模。這將推動(dòng)整個(gè)行業(yè)從"量"的競(jìng)爭轉(zhuǎn)向"質(zhì)"的競(jìng)爭,催生更加精細(xì)化的數(shù)據(jù)工程實(shí)踐。
總而言之,"煉金術(shù)師"不僅是一個(gè)技術(shù)創(chuàng)新,更是一個(gè)理念突破。它告訴我們,在AI訓(xùn)練這道菜譜中,選對(duì)食材比增加分量更重要。通過讓AI學(xué)會(huì)自我評(píng)判和選擇,我們不僅能獲得更好的模型性能,還能以更可持續(xù)的方式推進(jìn)AI技術(shù)的發(fā)展。這項(xiàng)研究為未來的數(shù)據(jù)驅(qū)動(dòng)AI研究指明了新的方向,相信會(huì)啟發(fā)更多創(chuàng)新性的解決方案。
Q&A
Q1:煉金術(shù)師Alchemist如何判斷哪些圖片數(shù)據(jù)更有價(jià)值?
A:煉金術(shù)師通過觀察AI模型在學(xué)習(xí)過程中的"反應(yīng)"來判斷數(shù)據(jù)價(jià)值,如果一張圖片能讓模型學(xué)到新知識(shí)并快速改進(jìn)就是好數(shù)據(jù),如果讓模型學(xué)了半天沒進(jìn)步就是無用數(shù)據(jù),類似觀察學(xué)生做題時(shí)的表情來判斷題目是否合適。
Q2:為什么用一半數(shù)據(jù)訓(xùn)練出的模型比用全部數(shù)據(jù)還要好?
A:因?yàn)椴⒎撬袛?shù)據(jù)都有價(jià)值,就像教孩子畫畫時(shí)精選5000張優(yōu)質(zhì)作品比給他看10000張雜亂涂鴉更有效。煉金術(shù)師發(fā)現(xiàn)那些看起來最簡單的圖片雖然不會(huì)出錯(cuò)但學(xué)不到東西,而內(nèi)容豐富、稍有挑戰(zhàn)的圖片才是真正的營養(yǎng)品。
Q3:煉金術(shù)師的數(shù)據(jù)篩選方法能在其他AI模型上使用嗎?
A:可以,研究顯示這種方法具有良好的通用性和跨模型適用性。無論是網(wǎng)絡(luò)數(shù)據(jù)、合成數(shù)據(jù)還是不同架構(gòu)的模型都能有效提升,就像經(jīng)驗(yàn)豐富的教練選擇的訓(xùn)練方法既適合業(yè)余選手也適合專業(yè)選手。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.