![]()
圖源:Unsplash / Thomas Bormans
導(dǎo)讀:
發(fā)表在IEEE Internet Computing的一項(xiàng)研究顯示,多模態(tài)大語(yǔ)言模型無(wú)法正確識(shí)別模擬時(shí)鐘的時(shí)間,暴露出此類(lèi)大模型的一個(gè)根本局限:缺乏人類(lèi)式的抽象思維和泛化能力。
你能想象嗎?一個(gè)能解讀醫(yī)學(xué)影像、分析復(fù)雜圖紙的多模態(tài)大模型,卻栽在了一個(gè)幼兒園孩子都能搞定的任務(wù)——看表上。
你可能會(huì)想,這不就是瞅一眼指針位置的事兒?jiǎn)幔康钚卵芯堪l(fā)現(xiàn),多模態(tài)大語(yǔ)言模型在讀取老式模擬時(shí)鐘(Analog Clocks)時(shí)間這項(xiàng)“簡(jiǎn)單任務(wù)”上的表現(xiàn)卻不盡如人意。這背后暴露的,正是當(dāng)前人工智能在抽象思維和泛化能力上的天然短板。
SAIXIANSHENG
高材生模型的“看表困難癥”
我們熟知的大語(yǔ)言模型(Large Language Model,簡(jiǎn)稱(chēng)LLM),主要是利用海量的文本數(shù)據(jù),生成各種回答。在大語(yǔ)言模型成功的基礎(chǔ)上,許多人工智能公司也推出了多模態(tài)大語(yǔ)言模型(Multimodal Large Language Model,簡(jiǎn)稱(chēng) MLLM)。它不僅可以處理文字,還能利用圖像、視頻和音頻等信息,進(jìn)行表達(dá)、交流和理解。在人工智能領(lǐng)域,多模態(tài)讓機(jī)器能夠同時(shí)處理、整合和理解上述形態(tài)的信息,并進(jìn)行信息推理和生成。
但是,這樣一位頂尖學(xué)霸,能處理復(fù)雜的視覺(jué)問(wèn)答,卻看不懂墻上的模擬時(shí)鐘,就是那種帶有指針(時(shí)針、分針、秒針)的傳統(tǒng)時(shí)鐘。這就是目前多模態(tài)大語(yǔ)言模型的真實(shí)寫(xiě)照。
去年7月,來(lái)自西班牙和意大利的一個(gè)合作研究團(tuán)隊(duì),報(bào)告了對(duì)包括GPT-4o、Gemma3、LLaMa3.2和QwenVL-2.5在內(nèi)的多個(gè)主流多模態(tài)大模型的一個(gè)測(cè)試,發(fā)現(xiàn)它們?cè)跊](méi)有經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練前,基本上都無(wú)法正確讀取模擬時(shí)鐘的時(shí)間。
![]()
圖1 網(wǎng)絡(luò)搜索中常見(jiàn)的鐘表圖像示例
問(wèn)題根源很有趣:這些模型的訓(xùn)練數(shù)據(jù)主要來(lái)自互聯(lián)網(wǎng),而網(wǎng)絡(luò)上的鐘表圖片高度偏向于“經(jīng)典造型”,比如廣告中常見(jiàn)的10:10位置(指針形成優(yōu)美對(duì)稱(chēng)角度)。模型們只記住了常見(jiàn)樣式,卻沒(méi)真正理解看表的內(nèi)在原理。
SAIXIANSHENG
特訓(xùn)立竿見(jiàn)影,但治標(biāo)不治本
研究人員當(dāng)起了“補(bǔ)習(xí)老師”,創(chuàng)建了一個(gè)包含4.3萬(wàn)種可能時(shí)間的時(shí)鐘圖像數(shù)據(jù)集,并使用其中的5000個(gè)樣本對(duì)模型進(jìn)行精細(xì)微調(diào)。
結(jié)果如何?特訓(xùn)后模型們?cè)凇澳M考試”中成績(jī)飆升,在大多數(shù)情況下,能夠準(zhǔn)確讀出之前沒(méi)見(jiàn)過(guò)的時(shí)鐘時(shí)間。雖然仍然存在一些誤差,但預(yù)測(cè)時(shí)間與實(shí)際值相比更加吻合。
![]()
圖2 微調(diào)對(duì)模型預(yù)測(cè)性能的影響(a)調(diào)優(yōu)前(b)調(diào)優(yōu)后,模型包括GPT-4o、Gemma3-12B、LLaMa3.2-11B和QwenVL-2.5-7B。微調(diào)前,四個(gè)大模型的預(yù)測(cè)值都距離實(shí)際值相差較遠(yuǎn),而且結(jié)果很分散。微調(diào)后,雖然預(yù)測(cè)結(jié)果并不能都完全正確,但總體來(lái)說(shuō),預(yù)測(cè)值距離實(shí)際值更加接近
但是,當(dāng)面對(duì)131張真實(shí)環(huán)境中的時(shí)鐘圖片,所有模型都被打回原形:這四個(gè)模型都不能正確讀取時(shí)間。
研究者認(rèn)為,這表明模型未能將學(xué)習(xí)成果有效泛化到真實(shí)場(chǎng)景。
SAIXIANSHENG
達(dá)利式的挑戰(zhàn):當(dāng)時(shí)鐘開(kāi)始“融化”
研究者們?cè)跍y(cè)試以上四種大模型時(shí),意外發(fā)現(xiàn)OpenAI的多模型大模型已經(jīng)更新到GPT-4.1。當(dāng)他們對(duì)該模型測(cè)試時(shí),發(fā)現(xiàn)GPT-4.1能夠輕松讀取他們建立的時(shí)鐘圖像數(shù)據(jù)集中的時(shí)間,而且在真實(shí)時(shí)鐘圖像數(shù)據(jù)集上的表現(xiàn)更好。研究者們推測(cè),這可能是因?yàn)镚PT-4.1訓(xùn)練的數(shù)據(jù)集樣本更多。
若多模態(tài)大模型通過(guò)更多訓(xùn)練,也有可能辨識(shí)別出真實(shí)的時(shí)鐘圖像。那么,增加一點(diǎn)難度,如果是變形的模擬時(shí)鐘呢?
研究團(tuán)隊(duì)腦洞大開(kāi),創(chuàng)作了兩種“魔幻時(shí)鐘”:一種是表盤(pán)扭曲變形的,另一種是指針變細(xì)并加上箭頭的。這一靈感源于薩爾瓦多·達(dá)利的名畫(huà)《記憶的永恒》中那些軟塌塌的融化時(shí)鐘。
結(jié)果顯示,最新版的GPT-4.1面對(duì)這些“達(dá)利式”時(shí)鐘時(shí)無(wú)法準(zhǔn)確判斷。
![]()
![]()
圖3.(a) 正常時(shí)鐘 (b) 扭曲形狀表盤(pán) (c) 修改指針的時(shí)鐘圖像 三種情況下GPT-4.1原始和精調(diào)后的識(shí)別結(jié)果
具體來(lái)說(shuō),GPT-4.1模型在變形表盤(pán)上的誤差增加了近6倍,在修改指針后誤差更是飆升到16倍!一個(gè)指針上的小箭頭,就能讓聰明的AI模型暈頭轉(zhuǎn)向。這表明模型并未真正理解看時(shí)間的原理,而是依賴訓(xùn)練數(shù)據(jù)中的表面模式。
而另外三個(gè)模型,也沒(méi)能成功讀取扭曲或修改指針后的時(shí)鐘圖像的時(shí)間。
研究人員分析認(rèn)為,多模態(tài)大模型看表有兩個(gè)致命誤區(qū)。
誤區(qū)一:“方向感”差勁
模型在判斷指針指向時(shí)經(jīng)常出錯(cuò),不夠敏感。
誤區(qū)二:“指鹿為馬”
更嚴(yán)重的是,模型經(jīng)常分不清時(shí)針、分針和秒針。它似乎主要依靠指針的粗細(xì)來(lái)區(qū)分它們,一旦指針樣式變化,就徹底混亂。
![]()
圖4. GPT-4.1原始模型和精調(diào)后,指針功能混淆的示例(a)修改指針后(b)變形表盤(pán)時(shí)鐘
研究人員指出,這暴露了模型的真實(shí)學(xué)習(xí)方式:它缺乏人類(lèi)式的抽象思維和泛化能力,不是在學(xué)習(xí)“看表”這個(gè)概念,而是在記憶訓(xùn)練數(shù)據(jù)中的表面模式。
SAIXIANSHENG
給AI發(fā)展的啟示
這項(xiàng)研究的意義遠(yuǎn)不止于時(shí)鐘讀取這個(gè)具體任務(wù)。它揭示了當(dāng)前多模態(tài)大預(yù)言模型的一個(gè)根本局限:缺乏人類(lèi)式的抽象思維和泛化能力。
當(dāng)模型在一個(gè)環(huán)節(jié),如區(qū)分指針功能,遇到困難時(shí),它在其他環(huán)節(jié)(如判斷指針?lè)较颍┑谋憩F(xiàn)也會(huì)受到影響。這種“連鎖反應(yīng)”式的性能下降在真實(shí)世界中可能帶來(lái)嚴(yán)重后果。
想象一下,一個(gè)用于醫(yī)療影像分析的AI,如果因?yàn)樗鼪](méi)見(jiàn)過(guò)的某個(gè)設(shè)備型號(hào)或拍攝角度而判斷失誤,代價(jià)將是巨大的。
目前的解決方案主要是“填鴨式”教育——通過(guò)增加更多訓(xùn)練數(shù)據(jù)來(lái)覆蓋各種情況。但研究人員指出,真正的突破需要模型能夠像人類(lèi)一樣進(jìn)行抽象學(xué)習(xí),理解事物的本質(zhì)原理而非表面特征。
畢竟,我們希望AI是達(dá)利那樣的創(chuàng)意藝術(shù)家,而不是只會(huì)復(fù)制老師板書(shū)的好學(xué)生。
而作為人類(lèi),當(dāng)你輕松瞥一眼時(shí)鐘就知道時(shí)間時(shí),不妨對(duì)大腦的抽象思維能力多一份感激。至少,這還是我們當(dāng)前的優(yōu)勢(shì)之一。
![]()
![]()
圖5. GPT-4.1在不同時(shí)鐘變體上的性能及微調(diào)影響
作者簡(jiǎn)介:
黃磊,香港大學(xué)管理學(xué)博士,同濟(jì)大學(xué)自動(dòng)控制碩士,目前在互聯(lián)網(wǎng)企業(yè)從事數(shù)字營(yíng)銷(xiāo)相關(guān)業(yè)務(wù)管理工作。
參考資料:(上下滑動(dòng)可瀏覽)
[1] T. Fu, M. González, J. Conde, E. Merino-Gómez and P. Reviriego, "Have Multimodal Large Language Models Really Learned to Tell the Time on Analog Clocks?," in IEEE Internet Computing, vol. 29, no. 4, pp. 48-54, July-Aug. 2025, doi: 10.1109/MIC.2025.3618144.
來(lái)源:賽先生
編輯:ThymolBlue
轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)
不代表中科院物理所立場(chǎng)
如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.