網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

萬(wàn)能的AI大模型，患上“看表困難癥”

2026-01-28 10:36:21　來(lái)源: 中科院物理所

北京舉報(bào)

分享至

圖源：Unsplash / Thomas Bormans

導(dǎo)讀：

發(fā)表在IEEE Internet Computing的一項(xiàng)研究顯示，多模態(tài)大語(yǔ)言模型無(wú)法正確識(shí)別模擬時(shí)鐘的時(shí)間，暴露出此類(lèi)大模型的一個(gè)根本局限：缺乏人類(lèi)式的抽象思維和泛化能力。

你能想象嗎？一個(gè)能解讀醫(yī)學(xué)影像、分析復(fù)雜圖紙的多模態(tài)大模型，卻栽在了一個(gè)幼兒園孩子都能搞定的任務(wù)——看表上。

你可能會(huì)想，這不就是瞅一眼指針位置的事兒?jiǎn)幔康钚卵芯堪l(fā)現(xiàn)，多模態(tài)大語(yǔ)言模型在讀取老式模擬時(shí)鐘（Analog Clocks）時(shí)間這項(xiàng)“簡(jiǎn)單任務(wù)”上的表現(xiàn)卻不盡如人意。這背后暴露的，正是當(dāng)前人工智能在抽象思維和泛化能力上的天然短板。

SAIXIANSHENG

高材生模型的“看表困難癥”

我們熟知的大語(yǔ)言模型（Large Language Model，簡(jiǎn)稱(chēng)LLM），主要是利用海量的文本數(shù)據(jù)，生成各種回答。在大語(yǔ)言模型成功的基礎(chǔ)上，許多人工智能公司也推出了多模態(tài)大語(yǔ)言模型（Multimodal Large Language Model，簡(jiǎn)稱(chēng) MLLM）。它不僅可以處理文字，還能利用圖像、視頻和音頻等信息，進(jìn)行表達(dá)、交流和理解。在人工智能領(lǐng)域，多模態(tài)讓機(jī)器能夠同時(shí)處理、整合和理解上述形態(tài)的信息，并進(jìn)行信息推理和生成。

但是，這樣一位頂尖學(xué)霸，能處理復(fù)雜的視覺(jué)問(wèn)答，卻看不懂墻上的模擬時(shí)鐘，就是那種帶有指針（時(shí)針、分針、秒針）的傳統(tǒng)時(shí)鐘。這就是目前多模態(tài)大語(yǔ)言模型的真實(shí)寫(xiě)照。

去年7月，來(lái)自西班牙和意大利的一個(gè)合作研究團(tuán)隊(duì)，報(bào)告了對(duì)包括GPT-4o、Gemma3、LLaMa3.2和QwenVL-2.5在內(nèi)的多個(gè)主流多模態(tài)大模型的一個(gè)測(cè)試，發(fā)現(xiàn)它們?cè)跊](méi)有經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練前，基本上都無(wú)法正確讀取模擬時(shí)鐘的時(shí)間。

圖1 網(wǎng)絡(luò)搜索中常見(jiàn)的鐘表圖像示例

問(wèn)題根源很有趣：這些模型的訓(xùn)練數(shù)據(jù)主要來(lái)自互聯(lián)網(wǎng)，而網(wǎng)絡(luò)上的鐘表圖片高度偏向于“經(jīng)典造型”，比如廣告中常見(jiàn)的10：10位置（指針形成優(yōu)美對(duì)稱(chēng)角度）。模型們只記住了常見(jiàn)樣式，卻沒(méi)真正理解看表的內(nèi)在原理。

SAIXIANSHENG

特訓(xùn)立竿見(jiàn)影，但治標(biāo)不治本

研究人員當(dāng)起了“補(bǔ)習(xí)老師”，創(chuàng)建了一個(gè)包含4.3萬(wàn)種可能時(shí)間的時(shí)鐘圖像數(shù)據(jù)集，并使用其中的5000個(gè)樣本對(duì)模型進(jìn)行精細(xì)微調(diào)。

結(jié)果如何？特訓(xùn)后模型們?cè)凇澳M考試”中成績(jī)飆升，在大多數(shù)情況下，能夠準(zhǔn)確讀出之前沒(méi)見(jiàn)過(guò)的時(shí)鐘時(shí)間。雖然仍然存在一些誤差，但預(yù)測(cè)時(shí)間與實(shí)際值相比更加吻合。

圖2 微調(diào)對(duì)模型預(yù)測(cè)性能的影響（a）調(diào)優(yōu)前（b）調(diào)優(yōu)后，模型包括GPT-4o、Gemma3-12B、LLaMa3.2-11B和QwenVL-2.5-7B。微調(diào)前，四個(gè)大模型的預(yù)測(cè)值都距離實(shí)際值相差較遠(yuǎn)，而且結(jié)果很分散。微調(diào)后，雖然預(yù)測(cè)結(jié)果并不能都完全正確，但總體來(lái)說(shuō)，預(yù)測(cè)值距離實(shí)際值更加接近

但是，當(dāng)面對(duì)131張真實(shí)環(huán)境中的時(shí)鐘圖片，所有模型都被打回原形：這四個(gè)模型都不能正確讀取時(shí)間。

研究者認(rèn)為，這表明模型未能將學(xué)習(xí)成果有效泛化到真實(shí)場(chǎng)景。

SAIXIANSHENG

達(dá)利式的挑戰(zhàn)：當(dāng)時(shí)鐘開(kāi)始“融化”

研究者們?cè)跍y(cè)試以上四種大模型時(shí)，意外發(fā)現(xiàn)OpenAI的多模型大模型已經(jīng)更新到GPT-4.1。當(dāng)他們對(duì)該模型測(cè)試時(shí)，發(fā)現(xiàn)GPT-4.1能夠輕松讀取他們建立的時(shí)鐘圖像數(shù)據(jù)集中的時(shí)間，而且在真實(shí)時(shí)鐘圖像數(shù)據(jù)集上的表現(xiàn)更好。研究者們推測(cè)，這可能是因?yàn)镚PT-4.1訓(xùn)練的數(shù)據(jù)集樣本更多。

若多模態(tài)大模型通過(guò)更多訓(xùn)練，也有可能辨識(shí)別出真實(shí)的時(shí)鐘圖像。那么，增加一點(diǎn)難度，如果是變形的模擬時(shí)鐘呢？

研究團(tuán)隊(duì)腦洞大開(kāi)，創(chuàng)作了兩種“魔幻時(shí)鐘”：一種是表盤(pán)扭曲變形的，另一種是指針變細(xì)并加上箭頭的。這一靈感源于薩爾瓦多·達(dá)利的名畫(huà)《記憶的永恒》中那些軟塌塌的融化時(shí)鐘。

結(jié)果顯示，最新版的GPT-4.1面對(duì)這些“達(dá)利式”時(shí)鐘時(shí)無(wú)法準(zhǔn)確判斷。

圖3.(a) 正常時(shí)鐘 (b) 扭曲形狀表盤(pán) (c) 修改指針的時(shí)鐘圖像三種情況下GPT-4.1原始和精調(diào)后的識(shí)別結(jié)果

具體來(lái)說(shuō)，GPT-4.1模型在變形表盤(pán)上的誤差增加了近6倍，在修改指針后誤差更是飆升到16倍！一個(gè)指針上的小箭頭，就能讓聰明的AI模型暈頭轉(zhuǎn)向。這表明模型并未真正理解看時(shí)間的原理，而是依賴訓(xùn)練數(shù)據(jù)中的表面模式。

而另外三個(gè)模型，也沒(méi)能成功讀取扭曲或修改指針后的時(shí)鐘圖像的時(shí)間。

研究人員分析認(rèn)為，多模態(tài)大模型看表有兩個(gè)致命誤區(qū)。

誤區(qū)一：“方向感”差勁

模型在判斷指針指向時(shí)經(jīng)常出錯(cuò)，不夠敏感。

誤區(qū)二：“指鹿為馬”

更嚴(yán)重的是，模型經(jīng)常分不清時(shí)針、分針和秒針。它似乎主要依靠指針的粗細(xì)來(lái)區(qū)分它們，一旦指針樣式變化，就徹底混亂。

圖4. GPT-4.1原始模型和精調(diào)后，指針功能混淆的示例（a）修改指針后（b）變形表盤(pán)時(shí)鐘

研究人員指出，這暴露了模型的真實(shí)學(xué)習(xí)方式：它缺乏人類(lèi)式的抽象思維和泛化能力，不是在學(xué)習(xí)“看表”這個(gè)概念，而是在記憶訓(xùn)練數(shù)據(jù)中的表面模式。

SAIXIANSHENG

給AI發(fā)展的啟示

這項(xiàng)研究的意義遠(yuǎn)不止于時(shí)鐘讀取這個(gè)具體任務(wù)。它揭示了當(dāng)前多模態(tài)大預(yù)言模型的一個(gè)根本局限：缺乏人類(lèi)式的抽象思維和泛化能力。

當(dāng)模型在一個(gè)環(huán)節(jié)，如區(qū)分指針功能，遇到困難時(shí)，它在其他環(huán)節(jié)（如判斷指針?lè)较颍┑谋憩F(xiàn)也會(huì)受到影響。這種“連鎖反應(yīng)”式的性能下降在真實(shí)世界中可能帶來(lái)嚴(yán)重后果。

想象一下，一個(gè)用于醫(yī)療影像分析的AI，如果因?yàn)樗鼪](méi)見(jiàn)過(guò)的某個(gè)設(shè)備型號(hào)或拍攝角度而判斷失誤，代價(jià)將是巨大的。

目前的解決方案主要是“填鴨式”教育——通過(guò)增加更多訓(xùn)練數(shù)據(jù)來(lái)覆蓋各種情況。但研究人員指出，真正的突破需要模型能夠像人類(lèi)一樣進(jìn)行抽象學(xué)習(xí)，理解事物的本質(zhì)原理而非表面特征。

畢竟，我們希望AI是達(dá)利那樣的創(chuàng)意藝術(shù)家，而不是只會(huì)復(fù)制老師板書(shū)的好學(xué)生。

而作為人類(lèi)，當(dāng)你輕松瞥一眼時(shí)鐘就知道時(shí)間時(shí)，不妨對(duì)大腦的抽象思維能力多一份感激。至少，這還是我們當(dāng)前的優(yōu)勢(shì)之一。

圖5. GPT-4.1在不同時(shí)鐘變體上的性能及微調(diào)影響

作者簡(jiǎn)介：

黃磊，香港大學(xué)管理學(xué)博士，同濟(jì)大學(xué)自動(dòng)控制碩士，目前在互聯(lián)網(wǎng)企業(yè)從事數(shù)字營(yíng)銷(xiāo)相關(guān)業(yè)務(wù)管理工作。

參考資料：（上下滑動(dòng)可瀏覽）

[1] T. Fu, M. González, J. Conde, E. Merino-Gómez and P. Reviriego, "Have Multimodal Large Language Models Really Learned to Tell the Time on Analog Clocks?," in IEEE Internet Computing, vol. 29, no. 4, pp. 48-54, July-Aug. 2025, doi: 10.1109/MIC.2025.3618144.

來(lái)源：賽先生

編輯：ThymolBlue

轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)

不代表中科院物理所立場(chǎng)

如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.