<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      萬(wàn)能的AI大模型,患上“看表困難癥”

      0
      分享至


      圖源:Unsplash / Thomas Bormans

      導(dǎo)讀:

      發(fā)表在IEEE Internet Computing的一項(xiàng)研究顯示,多模態(tài)大語(yǔ)言模型無(wú)法正確識(shí)別模擬時(shí)鐘的時(shí)間,暴露出此類(lèi)大模型的一個(gè)根本局限:缺乏人類(lèi)式的抽象思維和泛化能力。

      你能想象嗎?一個(gè)能解讀醫(yī)學(xué)影像、分析復(fù)雜圖紙的多模態(tài)大模型,卻栽在了一個(gè)幼兒園孩子都能搞定的任務(wù)——看表上。

      你可能會(huì)想,這不就是瞅一眼指針位置的事兒?jiǎn)幔康钚卵芯堪l(fā)現(xiàn),多模態(tài)大語(yǔ)言模型在讀取老式模擬時(shí)鐘(Analog Clocks)時(shí)間這項(xiàng)“簡(jiǎn)單任務(wù)”上的表現(xiàn)卻不盡如人意。這背后暴露的,正是當(dāng)前人工智能在抽象思維和泛化能力上的天然短板。

      SAIXIANSHENG

      高材生模型的“看表困難癥”

      我們熟知的大語(yǔ)言模型(Large Language Model,簡(jiǎn)稱(chēng)LLM),主要是利用海量的文本數(shù)據(jù),生成各種回答。在大語(yǔ)言模型成功的基礎(chǔ)上,許多人工智能公司也推出了多模態(tài)大語(yǔ)言模型(Multimodal Large Language Model,簡(jiǎn)稱(chēng) MLLM)。它不僅可以處理文字,還能利用圖像、視頻和音頻等信息,進(jìn)行表達(dá)、交流和理解。在人工智能領(lǐng)域,多模態(tài)讓機(jī)器能夠同時(shí)處理、整合和理解上述形態(tài)的信息,并進(jìn)行信息推理和生成。

      但是,這樣一位頂尖學(xué)霸,能處理復(fù)雜的視覺(jué)問(wèn)答,卻看不懂墻上的模擬時(shí)鐘,就是那種帶有指針(時(shí)針、分針、秒針)的傳統(tǒng)時(shí)鐘。這就是目前多模態(tài)大語(yǔ)言模型的真實(shí)寫(xiě)照。

      去年7月,來(lái)自西班牙和意大利的一個(gè)合作研究團(tuán)隊(duì),報(bào)告了對(duì)包括GPT-4o、Gemma3、LLaMa3.2和QwenVL-2.5在內(nèi)的多個(gè)主流多模態(tài)大模型的一個(gè)測(cè)試,發(fā)現(xiàn)它們?cè)跊](méi)有經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練前,基本上都無(wú)法正確讀取模擬時(shí)鐘的時(shí)間。


      圖1 網(wǎng)絡(luò)搜索中常見(jiàn)的鐘表圖像示例

      問(wèn)題根源很有趣:這些模型的訓(xùn)練數(shù)據(jù)主要來(lái)自互聯(lián)網(wǎng),而網(wǎng)絡(luò)上的鐘表圖片高度偏向于“經(jīng)典造型”,比如廣告中常見(jiàn)的10:10位置(指針形成優(yōu)美對(duì)稱(chēng)角度)。模型們只記住了常見(jiàn)樣式,卻沒(méi)真正理解看表的內(nèi)在原理。

      SAIXIANSHENG

      特訓(xùn)立竿見(jiàn)影,但治標(biāo)不治本

      研究人員當(dāng)起了“補(bǔ)習(xí)老師”,創(chuàng)建了一個(gè)包含4.3萬(wàn)種可能時(shí)間的時(shí)鐘圖像數(shù)據(jù)集,并使用其中的5000個(gè)樣本對(duì)模型進(jìn)行精細(xì)微調(diào)。

      結(jié)果如何?特訓(xùn)后模型們?cè)凇澳M考試”中成績(jī)飆升,在大多數(shù)情況下,能夠準(zhǔn)確讀出之前沒(méi)見(jiàn)過(guò)的時(shí)鐘時(shí)間。雖然仍然存在一些誤差,但預(yù)測(cè)時(shí)間與實(shí)際值相比更加吻合。


      圖2 微調(diào)對(duì)模型預(yù)測(cè)性能的影響(a)調(diào)優(yōu)前(b)調(diào)優(yōu)后,模型包括GPT-4o、Gemma3-12B、LLaMa3.2-11B和QwenVL-2.5-7B。微調(diào)前,四個(gè)大模型的預(yù)測(cè)值都距離實(shí)際值相差較遠(yuǎn),而且結(jié)果很分散。微調(diào)后,雖然預(yù)測(cè)結(jié)果并不能都完全正確,但總體來(lái)說(shuō),預(yù)測(cè)值距離實(shí)際值更加接近

      但是,當(dāng)面對(duì)131張真實(shí)環(huán)境中的時(shí)鐘圖片,所有模型都被打回原形:這四個(gè)模型都不能正確讀取時(shí)間。

      研究者認(rèn)為,這表明模型未能將學(xué)習(xí)成果有效泛化到真實(shí)場(chǎng)景。

      SAIXIANSHENG

      達(dá)利式的挑戰(zhàn):當(dāng)時(shí)鐘開(kāi)始“融化”

      研究者們?cè)跍y(cè)試以上四種大模型時(shí),意外發(fā)現(xiàn)OpenAI的多模型大模型已經(jīng)更新到GPT-4.1。當(dāng)他們對(duì)該模型測(cè)試時(shí),發(fā)現(xiàn)GPT-4.1能夠輕松讀取他們建立的時(shí)鐘圖像數(shù)據(jù)集中的時(shí)間,而且在真實(shí)時(shí)鐘圖像數(shù)據(jù)集上的表現(xiàn)更好。研究者們推測(cè),這可能是因?yàn)镚PT-4.1訓(xùn)練的數(shù)據(jù)集樣本更多。

      若多模態(tài)大模型通過(guò)更多訓(xùn)練,也有可能辨識(shí)別出真實(shí)的時(shí)鐘圖像。那么,增加一點(diǎn)難度,如果是變形的模擬時(shí)鐘呢?

      研究團(tuán)隊(duì)腦洞大開(kāi),創(chuàng)作了兩種“魔幻時(shí)鐘”:一種是表盤(pán)扭曲變形的,另一種是指針變細(xì)并加上箭頭的。這一靈感源于薩爾瓦多·達(dá)利的名畫(huà)《記憶的永恒》中那些軟塌塌的融化時(shí)鐘。

      結(jié)果顯示,最新版的GPT-4.1面對(duì)這些“達(dá)利式”時(shí)鐘時(shí)無(wú)法準(zhǔn)確判斷。



      圖3.(a) 正常時(shí)鐘 (b) 扭曲形狀表盤(pán) (c) 修改指針的時(shí)鐘圖像 三種情況下GPT-4.1原始和精調(diào)后的識(shí)別結(jié)果

      具體來(lái)說(shuō),GPT-4.1模型在變形表盤(pán)上的誤差增加了近6倍,在修改指針后誤差更是飆升到16倍!一個(gè)指針上的小箭頭,就能讓聰明的AI模型暈頭轉(zhuǎn)向。這表明模型并未真正理解看時(shí)間的原理,而是依賴訓(xùn)練數(shù)據(jù)中的表面模式。

      而另外三個(gè)模型,也沒(méi)能成功讀取扭曲或修改指針后的時(shí)鐘圖像的時(shí)間。

      研究人員分析認(rèn)為,多模態(tài)大模型看表有兩個(gè)致命誤區(qū)。

      誤區(qū)一:“方向感”差勁

      模型在判斷指針指向時(shí)經(jīng)常出錯(cuò),不夠敏感。

      誤區(qū)二:“指鹿為馬”

      更嚴(yán)重的是,模型經(jīng)常分不清時(shí)針、分針和秒針。它似乎主要依靠指針的粗細(xì)來(lái)區(qū)分它們,一旦指針樣式變化,就徹底混亂。


      圖4. GPT-4.1原始模型和精調(diào)后,指針功能混淆的示例(a)修改指針后(b)變形表盤(pán)時(shí)鐘

      研究人員指出,這暴露了模型的真實(shí)學(xué)習(xí)方式:它缺乏人類(lèi)式的抽象思維和泛化能力,不是在學(xué)習(xí)“看表”這個(gè)概念,而是在記憶訓(xùn)練數(shù)據(jù)中的表面模式。

      SAIXIANSHENG

      給AI發(fā)展的啟示

      這項(xiàng)研究的意義遠(yuǎn)不止于時(shí)鐘讀取這個(gè)具體任務(wù)。它揭示了當(dāng)前多模態(tài)大預(yù)言模型的一個(gè)根本局限:缺乏人類(lèi)式的抽象思維和泛化能力。

      當(dāng)模型在一個(gè)環(huán)節(jié),如區(qū)分指針功能,遇到困難時(shí),它在其他環(huán)節(jié)(如判斷指針?lè)较颍┑谋憩F(xiàn)也會(huì)受到影響。這種“連鎖反應(yīng)”式的性能下降在真實(shí)世界中可能帶來(lái)嚴(yán)重后果。

      想象一下,一個(gè)用于醫(yī)療影像分析的AI,如果因?yàn)樗鼪](méi)見(jiàn)過(guò)的某個(gè)設(shè)備型號(hào)或拍攝角度而判斷失誤,代價(jià)將是巨大的。

      目前的解決方案主要是“填鴨式”教育——通過(guò)增加更多訓(xùn)練數(shù)據(jù)來(lái)覆蓋各種情況。但研究人員指出,真正的突破需要模型能夠像人類(lèi)一樣進(jìn)行抽象學(xué)習(xí),理解事物的本質(zhì)原理而非表面特征。

      畢竟,我們希望AI是達(dá)利那樣的創(chuàng)意藝術(shù)家,而不是只會(huì)復(fù)制老師板書(shū)的好學(xué)生。

      而作為人類(lèi),當(dāng)你輕松瞥一眼時(shí)鐘就知道時(shí)間時(shí),不妨對(duì)大腦的抽象思維能力多一份感激。至少,這還是我們當(dāng)前的優(yōu)勢(shì)之一。



      圖5. GPT-4.1在不同時(shí)鐘變體上的性能及微調(diào)影響

      作者簡(jiǎn)介:

      黃磊,香港大學(xué)管理學(xué)博士,同濟(jì)大學(xué)自動(dòng)控制碩士,目前在互聯(lián)網(wǎng)企業(yè)從事數(shù)字營(yíng)銷(xiāo)相關(guān)業(yè)務(wù)管理工作。

      參考資料:(上下滑動(dòng)可瀏覽)

      [1] T. Fu, M. González, J. Conde, E. Merino-Gómez and P. Reviriego, "Have Multimodal Large Language Models Really Learned to Tell the Time on Analog Clocks?," in IEEE Internet Computing, vol. 29, no. 4, pp. 48-54, July-Aug. 2025, doi: 10.1109/MIC.2025.3618144.

      來(lái)源:賽先生

      編輯:ThymolBlue

      轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)

      不代表中科院物理所立場(chǎng)

      如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      48歲歐陽(yáng)夏丹父母雙亡獨(dú)自過(guò)年,一個(gè)人吃7道菜,大口吃飯不矯情

      48歲歐陽(yáng)夏丹父母雙亡獨(dú)自過(guò)年,一個(gè)人吃7道菜,大口吃飯不矯情

      離離言幾許
      2026-02-20 23:38:28
      重大錯(cuò)誤,印制錯(cuò)誤的韓國(guó)國(guó)旗被升起4次,國(guó)際奧委會(huì)已致歉

      重大錯(cuò)誤,印制錯(cuò)誤的韓國(guó)國(guó)旗被升起4次,國(guó)際奧委會(huì)已致歉

      懂球帝
      2026-02-22 17:22:25
      平頂山15歲女孩被鞋扇磚砸事件后續(xù),女孩傷重未醒,全網(wǎng)求嚴(yán)懲

      平頂山15歲女孩被鞋扇磚砸事件后續(xù),女孩傷重未醒,全網(wǎng)求嚴(yán)懲

      觀察鑒娛
      2026-02-22 15:19:39
      轟20遲遲不露面,美媒提了個(gè)建議:中俄不如聯(lián)手

      轟20遲遲不露面,美媒提了個(gè)建議:中俄不如聯(lián)手

      空天力量
      2026-02-22 13:06:37
      李亞鵬年初六到陳光標(biāo)家做客!為陳環(huán)保送行,陳光標(biāo)妻子罕見(jiàn)露臉

      李亞鵬年初六到陳光標(biāo)家做客!為陳環(huán)保送行,陳光標(biāo)妻子罕見(jiàn)露臉

      離離言幾許
      2026-02-22 23:36:16
      港股,提前瘋漲了!

      港股,提前瘋漲了!

      君臨財(cái)富
      2026-02-22 21:00:04
      特朗普:關(guān)稅從10%升至15%!但不針對(duì)中國(guó)

      特朗普:關(guān)稅從10%升至15%!但不針對(duì)中國(guó)

      魏家東
      2026-02-22 08:29:23
      河北“釣帝”黑大爺因病去世,享年75歲,家屬:告別儀式已舉辦完畢;此前戶外垂釣多年被曬成“老抽色”走紅

      河北“釣帝”黑大爺因病去世,享年75歲,家屬:告別儀式已舉辦完畢;此前戶外垂釣多年被曬成“老抽色”走紅

      大風(fēng)新聞
      2026-02-22 08:46:03
      都在質(zhì)疑是不是演的?看完小乩童下轎這30秒,評(píng)論區(qū)徹底安靜了

      都在質(zhì)疑是不是演的?看完小乩童下轎這30秒,評(píng)論區(qū)徹底安靜了

      奇思妙想生活家
      2026-02-22 12:38:41
      美國(guó)總統(tǒng)特使:特朗普感到“好奇”,“伊朗為何還沒(méi)有屈服”

      美國(guó)總統(tǒng)特使:特朗普感到“好奇”,“伊朗為何還沒(méi)有屈服”

      環(huán)球網(wǎng)資訊
      2026-02-22 17:32:07
      2月22日俄烏最新:川普逼迫烏克蘭2天內(nèi)投降

      2月22日俄烏最新:川普逼迫烏克蘭2天內(nèi)投降

      西樓飲月
      2026-02-22 16:03:29
      男子參加“王婆說(shuō)媒”,自稱(chēng)“在政府機(jī)關(guān)上班”、有豪車(chē)及多套房,官方回應(yīng)

      男子參加“王婆說(shuō)媒”,自稱(chēng)“在政府機(jī)關(guān)上班”、有豪車(chē)及多套房,官方回應(yīng)

      上觀新聞
      2026-02-22 14:29:06
      中國(guó)游客遺體被打撈出,俄外長(zhǎng)致哀

      中國(guó)游客遺體被打撈出,俄外長(zhǎng)致哀

      觀察者網(wǎng)
      2026-02-22 15:35:13
      萬(wàn)幸!家庭聚會(huì)男子中途去屋外透氣,抬頭見(jiàn)3歲兒子墜樓,立馬伸手接住!“后怕極了”

      萬(wàn)幸!家庭聚會(huì)男子中途去屋外透氣,抬頭見(jiàn)3歲兒子墜樓,立馬伸手接住!“后怕極了”

      極目新聞
      2026-02-22 11:50:28
      馬年春節(jié)里,為什么沒(méi)什么人爭(zhēng)論,該買(mǎi)油車(chē)還是買(mǎi)電車(chē)了

      馬年春節(jié)里,為什么沒(méi)什么人爭(zhēng)論,該買(mǎi)油車(chē)還是買(mǎi)電車(chē)了

      路咖汽車(chē)
      2026-02-20 10:36:41
      “只有窮人,才這樣教育子女!”家長(zhǎng)讓孩子給外賣(mài)員送水,被群嘲

      “只有窮人,才這樣教育子女!”家長(zhǎng)讓孩子給外賣(mài)員送水,被群嘲

      妍妍教育日記
      2026-02-22 08:10:08
      從33.27億跌到1.56億,我感慨:離開(kāi)沈騰,馬麗也扛不起票房

      從33.27億跌到1.56億,我感慨:離開(kāi)沈騰,馬麗也扛不起票房

      白公子探劇
      2026-02-21 23:34:43
      恐怖分子大逃亡

      恐怖分子大逃亡

      求實(shí)處
      2026-02-21 23:48:06
      湛江東海島“許老板”許榮興:低調(diào)背后,到底藏著多少生意?

      湛江東海島“許老板”許榮興:低調(diào)背后,到底藏著多少生意?

      奇思妙想草葉君
      2026-02-22 19:14:23
      2-1絕殺奪冠!美國(guó)助攻日本:保住獎(jiǎng)牌榜前十 中國(guó)排名高韓國(guó)1位

      2-1絕殺奪冠!美國(guó)助攻日本:保住獎(jiǎng)牌榜前十 中國(guó)排名高韓國(guó)1位

      侃球熊弟
      2026-02-23 00:29:36
      2026-02-23 02:00:49
      中科院物理所 incentive-icons
      中科院物理所
      愛(ài)上物理,改變世界。
      9900文章數(shù) 136459關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過(guò)10000顆衛(wèi)星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細(xì)節(jié)披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細(xì)節(jié)披露

      體育要聞

      谷愛(ài)凌:6次參賽6次奪牌 我對(duì)自己非常自豪

      娛樂(lè)要聞

      谷愛(ài)凌:真正的強(qiáng)大 敢接納生命的節(jié)奏

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車(chē)要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      教育
      數(shù)碼
      藝術(shù)
      本地
      公開(kāi)課

      教育要聞

      兩所大學(xué),合并!

      數(shù)碼要聞

      古爾曼:蘋(píng)果3月2 - 4日發(fā)布“至少五款產(chǎn)品”

      藝術(shù)要聞

      誰(shuí)能想到,“餃子包”火了!還是韭菜雞蛋味兒,超吸睛!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版