![]()
這項(xiàng)研究由Google和約翰霍普金斯大學(xué)的研究團(tuán)隊(duì)共同完成,第一作者劉啟豪在Google實(shí)習(xí)期間主導(dǎo)了這項(xiàng)工作,其他核心成員包括Google的毛承志、劉耀杰、朱文勝,以及約翰霍普金斯大學(xué)的Alan Yuille教授。這項(xiàng)突破性研究發(fā)表在2025年12月的計(jì)算機(jī)視覺頂級(jí)會(huì)議上,論文編號(hào)為arXiv:2512.16921v1,為多模態(tài)大語言模型的評(píng)估和改進(jìn)開辟了全新路徑。
在人工智能飛速發(fā)展的今天,各種AI模型層出不窮,每個(gè)都聲稱自己比前輩更強(qiáng)大。然而現(xiàn)實(shí)中,我們?cè)撊绾握嬲私膺@些AI的優(yōu)缺點(diǎn)呢?傳統(tǒng)的評(píng)估方法就像是讓學(xué)生參加標(biāo)準(zhǔn)化考試,雖然能得到一個(gè)分?jǐn)?shù),但很難告訴我們學(xué)生具體哪里薄弱,更別說如何針對(duì)性地改進(jìn)了。研究團(tuán)隊(duì)面臨的正是這樣一個(gè)挑戰(zhàn):如何為AI模型建立一個(gè)真正有效的"體檢系統(tǒng)"。
現(xiàn)有的AI評(píng)估就像是醫(yī)生只看體溫和血壓就給病人下診斷一樣粗糙。雖然我們能知道某個(gè)AI在圖像識(shí)別測試中得了85分,另一個(gè)得了90分,但這并不能告訴我們第一個(gè)AI具體在什么地方表現(xiàn)不佳,也不知道如何幫它改進(jìn)。更令人困擾的是,有時(shí)候一個(gè)看起來更大更強(qiáng)的AI模型在某些特定情況下反而不如小模型表現(xiàn)好,這就像是讓奧運(yùn)冠軍和業(yè)余選手比賽,結(jié)果冠軍在某些項(xiàng)目上居然敗北了。
為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一套名為AuditDM的創(chuàng)新系統(tǒng)。這套系統(tǒng)的核心思路就像是培養(yǎng)一位專業(yè)的"AI審計(jì)師",它的工作就是專門挖掘目標(biāo)AI的各種弱點(diǎn)和盲區(qū)。這個(gè)審計(jì)師不是簡單地給AI出幾道題目,而是會(huì)精心設(shè)計(jì)各種刁鉆的問題和圖片,專門找那些能讓目標(biāo)AI出錯(cuò)的場景。
具體來說,這個(gè)審計(jì)系統(tǒng)的工作方式頗有些像一個(gè)經(jīng)驗(yàn)豐富的老師在給學(xué)生出考試題。這位老師不會(huì)隨機(jī)出題,而是會(huì)仔細(xì)觀察學(xué)生以往的錯(cuò)誤模式,然后專門設(shè)計(jì)一些能暴露學(xué)生知識(shí)盲點(diǎn)的題目。同樣地,AuditDM會(huì)分析目標(biāo)AI模型的行為模式,然后生成專門的問題和圖片來測試這個(gè)AI的薄弱環(huán)節(jié)。
這個(gè)審計(jì)師的獨(dú)特之處在于它能夠從三個(gè)方面來"刁難"目標(biāo)AI。首先,它會(huì)針對(duì)原始圖片提出一些特別挑戰(zhàn)性的問題,這些問題往往涉及圖片中的細(xì)節(jié)或者需要復(fù)雜推理的內(nèi)容。其次,它會(huì)指導(dǎo)圖像生成模型創(chuàng)造一些經(jīng)過精心設(shè)計(jì)的新圖片,這些圖片看起來很正常,但包含了容易讓AI出錯(cuò)的元素。最后,它還能對(duì)現(xiàn)有圖片進(jìn)行微妙的編輯,比如改變一些看似無關(guān)緊要的細(xì)節(jié),然后觀察這些變化是否會(huì)讓AI給出完全不同的答案。
研究團(tuán)隊(duì)在訓(xùn)練這個(gè)審計(jì)師時(shí)采用了一種叫做強(qiáng)化學(xué)習(xí)的方法,這就像是訓(xùn)練一只專門找茬的狗。每當(dāng)審計(jì)師成功找到了能讓目標(biāo)AI出錯(cuò)的例子時(shí),就會(huì)得到獎(jiǎng)勵(lì),這樣它就會(huì)越來越善于發(fā)現(xiàn)AI的弱點(diǎn)。為了確保審計(jì)師找到的確實(shí)是真正的問題而不是無意義的錯(cuò)誤,研究團(tuán)隊(duì)還設(shè)置了一個(gè)由多個(gè)AI組成的"評(píng)判團(tuán)"來驗(yàn)證每個(gè)發(fā)現(xiàn)的失敗案例是否合理。
當(dāng)研究團(tuán)隊(duì)把這套系統(tǒng)應(yīng)用到最新的AI模型上時(shí),發(fā)現(xiàn)了許多令人意外的結(jié)果。比如說,他們測試了Google的PaliGemma2家族模型,發(fā)現(xiàn)了超過20種不同類型的失敗模式。更有趣的是,他們發(fā)現(xiàn)在某些特定任務(wù)上,較大的28B參數(shù)模型竟然表現(xiàn)得不如小巧的3B模型。
這些發(fā)現(xiàn)就像是醫(yī)生通過全面體檢發(fā)現(xiàn)了一些之前被忽視的健康問題。比如,研究發(fā)現(xiàn)大模型在避免幻覺、顏色識(shí)別和數(shù)數(shù)方面反而更容易出錯(cuò),而小模型在理解物體關(guān)系和情感識(shí)別方面存在明顯不足。這種發(fā)現(xiàn)對(duì)于AI開發(fā)者來說極其寶貴,因?yàn)樗屗麄冎缿?yīng)該在哪些方面重點(diǎn)改進(jìn)自己的模型。
更令人興奮的是,這個(gè)審計(jì)系統(tǒng)不僅能發(fā)現(xiàn)問題,還能幫助解決問題。一旦審計(jì)師找到了AI的弱點(diǎn),研究團(tuán)隊(duì)就可以利用這些發(fā)現(xiàn)來生成大量針對(duì)性的訓(xùn)練數(shù)據(jù)。這就像是一個(gè)私人教練不僅告訴你哪里做得不好,還為你制定了專門的訓(xùn)練計(jì)劃。
實(shí)驗(yàn)結(jié)果證明了這種方法的有效性。當(dāng)研究團(tuán)隊(duì)用審計(jì)師發(fā)現(xiàn)的弱點(diǎn)數(shù)據(jù)來重新訓(xùn)練AI模型時(shí),幾乎在所有測試中都看到了顯著的改進(jìn)。在某些情況下,經(jīng)過這種針對(duì)性訓(xùn)練的小模型甚至能超越原本更大的模型。這就像是一個(gè)經(jīng)過針對(duì)性訓(xùn)練的業(yè)余選手在特定項(xiàng)目上戰(zhàn)勝了職業(yè)選手。
這項(xiàng)研究的重要意義不僅在于提供了一種新的AI評(píng)估方法,更在于它為AI的持續(xù)改進(jìn)開辟了一條新路徑。在傳統(tǒng)的AI開發(fā)中,研究人員主要依靠增加數(shù)據(jù)量和模型規(guī)模來提升性能,但隨著數(shù)據(jù)資源越來越稀缺,這種粗放式的改進(jìn)方法正在遇到瓶頸。而AuditDM提供的精準(zhǔn)診斷和針對(duì)性改進(jìn)方法,就像是從"大水漫灌"轉(zhuǎn)向"精準(zhǔn)滴灌"的農(nóng)業(yè)革命。
從技術(shù)實(shí)現(xiàn)的角度來看,整個(gè)系統(tǒng)的核心在于如何讓審計(jì)師學(xué)會(huì)生成那些能夠最大化暴露目標(biāo)AI弱點(diǎn)的內(nèi)容。研究團(tuán)隊(duì)采用的方法是讓審計(jì)師不斷嘗試生成各種問題和圖片,然后觀察這些內(nèi)容是否能讓目標(biāo)AI與參考模型產(chǎn)生分歧。當(dāng)分歧越大時(shí),審計(jì)師就獲得越多的獎(jiǎng)勵(lì),從而學(xué)會(huì)專門尋找那些容易引起爭議的"邊界案例"。
這種方法的巧妙之處在于它不需要人工標(biāo)注大量的訓(xùn)練數(shù)據(jù)。傳統(tǒng)的AI訓(xùn)練往往需要海量的人工標(biāo)注數(shù)據(jù),這既昂貴又耗時(shí)。而AuditDM通過讓不同AI模型之間相互"對(duì)話"來自動(dòng)發(fā)現(xiàn)問題,大大降低了對(duì)人工標(biāo)注的依賴。這就像是讓一群醫(yī)生互相討論病例,通過他們的分歧來發(fā)現(xiàn)診斷中的疑難問題。
在具體的實(shí)驗(yàn)中,研究團(tuán)隊(duì)發(fā)現(xiàn)了許多有趣的現(xiàn)象。例如,當(dāng)審計(jì)師對(duì)圖片進(jìn)行微妙的編輯后,比如將一個(gè)人的領(lǐng)帶換成圍巾,或者把滑雪板換成徒步靴,AI模型的回答就會(huì)發(fā)生意想不到的變化。這些發(fā)現(xiàn)揭示了AI模型在處理視覺信息時(shí)的脆弱性,它們往往會(huì)被一些與任務(wù)無關(guān)的細(xì)節(jié)所誤導(dǎo)。
更深層次的發(fā)現(xiàn)是,不同規(guī)模的AI模型似乎有著不同的"性格特點(diǎn)"。大模型雖然在很多任務(wù)上表現(xiàn)出色,但在某些特定情況下會(huì)表現(xiàn)出過度自信的傾向,容易產(chǎn)生幻覺或者過度解讀圖像中的信息。而小模型雖然整體能力有限,但在某些簡單任務(wù)上反而更加穩(wěn)定可靠。這種發(fā)現(xiàn)對(duì)于在實(shí)際應(yīng)用中選擇合適的AI模型具有重要的指導(dǎo)意義。
研究團(tuán)隊(duì)還發(fā)現(xiàn),通過這種審計(jì)方法發(fā)現(xiàn)的問題具有很好的可解釋性。與傳統(tǒng)的黑箱測試不同,AuditDM能夠生成具體的失敗案例,每個(gè)案例都清楚地展示了AI在什么情況下會(huì)出錯(cuò),以及出錯(cuò)的具體表現(xiàn)。這就像是給AI做了一次全面的"體檢報(bào)告",不僅告訴你哪里有問題,還清楚地說明了問題的具體表現(xiàn)和嚴(yán)重程度。
從實(shí)際應(yīng)用的角度來看,這項(xiàng)技術(shù)對(duì)于AI系統(tǒng)的部署和維護(hù)具有重要價(jià)值。在實(shí)際應(yīng)用中,AI系統(tǒng)往往會(huì)遇到各種意想不到的情況,而傳統(tǒng)的測試方法很難提前發(fā)現(xiàn)所有潛在問題。而AuditDM提供的主動(dòng)式問題發(fā)現(xiàn)機(jī)制,就像是為AI系統(tǒng)配備了一個(gè)專業(yè)的"壓力測試員",能夠在部署前就發(fā)現(xiàn)和解決潛在的問題。
值得注意的是,這種審計(jì)方法還具有很好的通用性。研究團(tuán)隊(duì)在不同類型的AI模型上都驗(yàn)證了這種方法的有效性,包括PaliGemma2和Gemma3等多個(gè)主流模型家族。這表明AuditDM不是針對(duì)特定模型的定制化解決方案,而是一種可以廣泛應(yīng)用的通用方法。
當(dāng)然,這項(xiàng)技術(shù)也面臨一些挑戰(zhàn)和限制。首先是計(jì)算成本的問題,因?yàn)檎麄€(gè)審計(jì)過程需要大量的模型推理和圖像生成,在大規(guī)模應(yīng)用時(shí)可能會(huì)遇到資源瓶頸。其次是在某些特殊任務(wù)上,比如需要精確標(biāo)注的目標(biāo)檢測任務(wù),自動(dòng)生成的訓(xùn)練數(shù)據(jù)可能存在標(biāo)注不準(zhǔn)確的問題。
盡管存在這些挑戰(zhàn),但AuditDM所代表的"AI審計(jì)AI"的思路無疑為人工智能的發(fā)展開辟了新的方向。隨著AI系統(tǒng)變得越來越復(fù)雜,傳統(tǒng)的人工測試和評(píng)估方法已經(jīng)難以跟上技術(shù)發(fā)展的步伐。而利用AI系統(tǒng)本身的能力來發(fā)現(xiàn)和改進(jìn)AI的不足,不僅提高了效率,還能發(fā)現(xiàn)人類可能忽視的細(xì)微問題。
這項(xiàng)研究的意義還體現(xiàn)在它為AI安全和可靠性研究提供了新的工具。在AI系統(tǒng)越來越多地應(yīng)用于關(guān)鍵領(lǐng)域的今天,如何確保這些系統(tǒng)的安全可靠變得至關(guān)重要。AuditDM提供的主動(dòng)式風(fēng)險(xiǎn)發(fā)現(xiàn)機(jī)制,就像是為AI系統(tǒng)裝上了"安全監(jiān)控器",能夠持續(xù)監(jiān)測和改進(jìn)系統(tǒng)的可靠性。
展望未來,這種AI審計(jì)技術(shù)可能會(huì)成為AI開發(fā)流程中的標(biāo)準(zhǔn)環(huán)節(jié),就像軟件開發(fā)中的單元測試和集成測試一樣不可缺少。每當(dāng)開發(fā)出新的AI模型時(shí),都可能需要經(jīng)過這樣的審計(jì)過程,確保模型在各種情況下都能穩(wěn)定可靠地工作。
說到底,AuditDM的核心價(jià)值在于它改變了我們對(duì)AI評(píng)估的認(rèn)知。從被動(dòng)的標(biāo)準(zhǔn)化測試轉(zhuǎn)向主動(dòng)的弱點(diǎn)挖掘,從簡單的分?jǐn)?shù)比較轉(zhuǎn)向深入的行為分析,這種轉(zhuǎn)變不僅提高了AI評(píng)估的準(zhǔn)確性和實(shí)用性,更為AI的持續(xù)改進(jìn)提供了科學(xué)的方法論。在AI技術(shù)日新月異的今天,這樣的"AI醫(yī)生"無疑將成為推動(dòng)技術(shù)進(jìn)步的重要力量。對(duì)于普通用戶來說,這意味著我們未來使用的AI產(chǎn)品將更加智能、更加可靠,也更加值得信任。
Q&A
Q1:AuditDM系統(tǒng)是什么,它是如何工作的?
A:AuditDM是Google和約翰霍普金斯大學(xué)開發(fā)的AI審計(jì)系統(tǒng),專門用來發(fā)現(xiàn)其他AI模型的弱點(diǎn)。它就像一個(gè)專業(yè)的"AI審計(jì)師",會(huì)精心設(shè)計(jì)各種挑戰(zhàn)性的問題和圖片來測試目標(biāo)AI,通過觀察AI在什么情況下會(huì)出錯(cuò)來找出它的盲點(diǎn)和薄弱環(huán)節(jié)。
Q2:這個(gè)審計(jì)系統(tǒng)發(fā)現(xiàn)了哪些有趣的AI缺陷?
A:研究發(fā)現(xiàn)了很多意外的現(xiàn)象,比如大的AI模型在避免幻覺、顏色識(shí)別和數(shù)數(shù)方面反而比小模型更容易出錯(cuò)。同時(shí)發(fā)現(xiàn)AI模型很容易被圖片中無關(guān)的細(xì)節(jié)誤導(dǎo),比如僅僅把一個(gè)人的領(lǐng)帶換成圍巾就可能讓AI給出完全不同的答案。
Q3:這項(xiàng)技術(shù)對(duì)普通用戶有什么實(shí)際意義?
A:這項(xiàng)技術(shù)意味著未來的AI產(chǎn)品會(huì)更加可靠和智能。通過這種審計(jì)方法,AI開發(fā)者可以提前發(fā)現(xiàn)和修復(fù)各種潛在問題,讓AI在實(shí)際應(yīng)用中表現(xiàn)更穩(wěn)定。對(duì)用戶來說,這就像給AI裝上了"質(zhì)檢系統(tǒng)",確保我們使用的AI產(chǎn)品更值得信任。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.