<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<blockquote id="xigy6"><p id="xigy6"><th id="xigy6"></th></p></blockquote>

<sub id="xigy6"><rt id="xigy6"></rt></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

最新研究:當AI脫離語言，最強大模型視覺測試全輸給學前兒童！

2026-01-21 07:44:55　來源: AI先鋒官

北京舉報

0

分享至

如果你覺得多模態大模型已經“什么都會了”，Gemini 、ChatGPT 智商已經超越人類了，那這篇論文可能會給你潑一盆冷水。

日前，一篇來自arXiv 題為《BabyVision：超越語言的視覺推理》的論文給出了一個驚人的結論：如果完全不依賴語言，只考最基礎的視覺能力，今天最強多模態大模型的表現，還不如三歲小孩。

該篇論文作者為梁晨等來自 UniPat AI、北京大學、清華大學、阿里巴巴、普林斯頓等的 29 名研究員。

他們給這個研究方向設計了一個新基準，名字叫 BabyVision。

顧名可思義，考的不是博士級的復雜推理，而是人類在學會說話之前就已經具備的視覺能力。

過去一年，多模態模型在各種榜單上進步飛快，做數學題、看圖寫代碼、理解專業圖表，甚至在一些大學、博士水平的測試中超過普通人。

但作者指出，這些測試幾乎都有一個共同點，高度依賴語言、知識和文本推理。

于是他們反過來做了一件事，把語言和知識全部剝離，只剩下視覺本身。

BabyVision 一共只有 388 道題，規模不大，但設計得非常克制。

問題文本被壓縮到極短，平均只有二十多字，不需要任何背景知識。

題目分布在四類最基礎的視覺能力上：細微差異的辨別、視覺路徑追蹤、空間關系判斷，以及圖形和模式識別。

換句話說，就是“哪個更大”、“線走到哪里”、“這個形狀轉一下會變成什么”、“規律下一格是什么”等，這一類問題。

為了避免“文字投機”，作者在數據構建階段專門過濾了所有可能通過語言猜答案的樣本，甚至還請人反復驗證：如果遮住題目文字，只看圖，人類是否仍然可以完成判斷。

作為對照，他們不僅測了模型，還測了人。

測試對象包括 3 歲、6 歲、10 歲、12 歲的兒童，以及成年人。

結果是，人類的表現，幾乎是壓倒性的。

數據顯示：成年人在 BabyVision 上的平均正確率是 94.1%；6 歲兒童已經可以穩定超過 70%。

而當前表現最好的多模態模型，得分只有 49.7%。

而且，這還不是“平均模型”，而是作者測試中最強的那一個Gemini3-Pro-Preview。

換句話說，在這些不需要語言、只需要“看懂”的任務上，最先進的多模態大模型，整體水平還低于學齡前兒童。

更殘酷的是，模型的弱點并不是集中在某一類題型上，而是系統性的。

論文展示了大量錯誤案例。

比如分不清細微形狀差別、無法連續追蹤一條曲線，比如在二維圖像中構建錯誤的三維關系，或者完全誤判一個簡單的視覺規律。

分析原因，作者認為，問題并不只是模型“沒訓練夠”，而是當前多模態架構本身存在結構性瓶頸。

他們認為，大多數多模態模型的工作方式，本質上是“先看圖，再把視覺信息壓縮成語言 token，然后在語言空間里思考”。

這個過程在面對知識型問題時很高效，但對基礎視覺任務是致命的。

因為圖片細節在壓縮過程中會丟失，連續結構會被打斷，空間關系會被離散化，最終導致模型“會說，但看不清”。

為了驗證是不是“語言這一步”限制了能力，論文還提出了一個擴展實驗，叫 BabyVision-Gen。

在這個設置中，模型不需要用文字回答，而是直接在圖像上生成答案，比如畫出正確路徑、圈出不同區域。

結果顯示，在少數任務上，生成式視覺輸出確實能略微改善表現，但整體差距依然巨大。

這也讓論文的結論顯得更加清晰，即當前多模態模型在“像人一樣看”這件事上，遠沒有達到人類水平，哪怕人類還沒學會說話。

要知道，人類與世界的溝通，先有視覺后有語言，比如嬰兒幾個月大就能辨別形狀、追蹤物體。

但大模型在最基礎的視覺感知上近乎的“失明”表現說明，它們并非真正“看見”了圖像, 而是在用語言知識“猜測”答案。

抱著治病救人的態度，研究團隊還嘗試基于可驗證獎勵的強化學習（RLVR），對Qwen3-VL-8B-Thinking 進行訓練，來為大模型進行補救。

結果表明，準確率從 13.1% 提升 4.8 個百分點，到了 17.9%，但距離人類水平仍然遙不可及。

這表明，視覺能力的根本缺陷很難通過后訓練彌補，而可能需要架構層面的創新。

但這篇論文的價值，不在于否定多模態模型的進步，而是對多模態的發展路徑提出了條新的思考路徑。

論文明確指出，想要縮小人與模型之間的差距，靠堆數據、堆語言推理很可能不夠，必須重新思考視覺表征、連續空間建模，以及視覺與推理之間的連接方式。

論文地址為：

https://arxiv.org/pdf/2601.06521v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

情感識別不再是分類題：EmotionThinker讓SpeechLLM 學會解釋情緒

機器之心Pro 2026-02-25 13:45:15
0 跟貼 0
AdaResoner實現Agentic Vision的主動「視覺工具思考」

機器之心Pro 2026-02-24 13:58:23
0 跟貼 0

英特爾再戰AI，聯手AI芯片初創押注推理市場

DeepTech深科技 2026-02-25 17:28:43
0 跟貼 0

46.5萬次盲測封王！Grok視頻模型屠榜Arena，谷歌最強對手來了

新智元 2026-02-25 14:01:04
0 跟貼 0
數據缺少標注RL能誘導模型推理嗎？Co-rewarding提供自監督RL方案

機器之心Pro 2026-02-25 17:42:40
0 跟貼 0

AI記住失敗經驗：微軟提出Re-TRAC框架，4B性能SOTA，30B超越358B

機器之心Pro 2026-02-25 17:33:51
0 跟貼 0

北航開源Code2Bench：雙擴展動態評測，代碼大模型告別躺平刷分

機器之心Pro 2026-02-25 15:51:27
0 跟貼 0
ICLR 2026｜新版「圖靈測試」：當VLA走進生物實驗室

機器之心Pro 2026-02-25 17:22:58
0 跟貼 0

OpenClaw之父：代碼已死，意圖永生，還沒上車的人要先玩起來

華爾街見聞官方 2026-02-25 17:46:05
0 跟貼 0
紫牛頭條 | 全家出游老人服務區內被狗撲咬骨折，犬主付千元后駕車離開，警方已立案

揚子晚報 2026-02-24 23:56:16
6479 跟貼 6479
我帶的研究生論文獲獎了，他上臺感謝了所有人，唯獨沒提我

城事錄主 2026-02-25 15:01:31
0 跟貼 0
專門去拍火箭發射，沒想到結果太搞笑，建模：好一個聲東擊西！

笑醬小太陽 2026-02-21 16:51:00
14 跟貼 14
訓練獎勵太稀疏？港中文聯合美團給Agent加上「過程分」

機器之心Pro 2026-02-25 17:27:26
0 跟貼 0
南海部分海域進行實彈射擊禁止駛入

央視新聞客戶端 2026-02-24 21:54:47
4281 跟貼 4281
開始搶人！美國一周挖走4名中國頂尖人才，年薪1個億美元令人咋舌

壹知眠羊 2026-02-25 14:33:55
2 跟貼 2
QVGen讓「超低比特視頻生成量化」真正可用！

機器之心Pro 2026-02-25 18:07:24
0 跟貼 0
厚的書和薄的書

鐵劍幫幫主 2026-02-25 14:29:18
0 跟貼 0
福建農林大學院長以通訊作者身份發表《PNAS》封面論文

植物研究進展 2026-02-25 16:21:29
0 跟貼 0
初中數學代數式求值經典題型

天天數理學習分享 2026-02-21 20:50:34
3 跟貼 3
女子高速堵車走國道偶遇10年沒見過面的初戀，一眼認出對方車牌，確認后互相打招呼

大象新聞 2026-02-24 18:44:05
71 跟貼 71
今日交通案例快刷

AKA灰叔 2026-02-25 16:10:30
0 跟貼 0
一千多個模型都指向一個通用子空間

機器之心Pro 2025-12-16 18:23:47
0 跟貼 0
養貓知識：貓為什么不能隨便送人？

狐叫獸 2026-02-23 19:59:51
1 跟貼 1
美《連線》雜志派十幾個記者來華，稱中國正用23種方式重寫未來

人間放映廳 2026-02-25 15:53:49
0 跟貼 0
俄對外情報局稱英國和法國正準備向烏克蘭轉讓核武器，外交部表態

環球網資訊 2026-02-25 15:31:00
0 跟貼 0
消費級顯卡可跑！剛剛，阿里Qwen3.5又開源3款新模型

機器之心Pro 2026-02-25 17:09:48
0 跟貼 0
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1619 跟貼 1619
為什么德國電工接電線不用線鼻子？看完他們接線感覺漲知識了

平方秒和立方噸 2026-02-22 04:12:31
2 跟貼 2
施工現場磚塊運輸過程，看著有點像模型，竟還有點好玩！

幽默小火山 2026-02-25 11:39:53
1 跟貼 1
她用隱形墨水寫了論文，因此拿到了創意滿分

星星科普 2026-02-25 17:36:59
1 跟貼 1
騰訊元寶回應生成拜年海報出現臟話：模型處理多輪對話時輸出異常結果已緊急校正

紅星新聞 2026-02-25 14:04:28
85 跟貼 85
喬布斯誕辰日，蘋果公司召開股東大會：庫克并未接任董事長，也未釋放首款蘋果折疊屏手機相關信息

極目新聞 2026-02-25 08:38:15
134 跟貼 134
沖上熱搜！中秋請3天假堪比春節，13天超長假期！最實用拼假攻略已備好

上觀新聞 2026-02-25 14:08:57
120 跟貼 120
又是一場完美的推理,女王大帆的傷不要緊,幾天就能好,體質老好了

阿于總閑不住 2026-02-25 16:05:10
0 跟貼 0
1578一年級易錯題型：考試6分的題目全錯了，掌握方法其實很簡單

我服子佩 2026-02-24 21:40:18
1 跟貼 1
“現在至少要10萬”，有人剛花11萬買進：這是剛需，不等了

最江陰 2026-02-24 19:15:01
492 跟貼 492
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869
養貓知識：貓的智商相當于幾歲人類智商？

狐叫獸 2026-02-23 19:33:10
16 跟貼 16
27國考98:1報錄比，371萬考生踩坑復盤，小白/大齡考生必看指南

豫公社小酷 2026-02-25 15:17:48
0 跟貼 0
中辦發文強調“正確政績觀”，有何深意？

中國新聞周刊 2026-02-24 18:35:03
103 跟貼 103

美國華人直言：中國手機掃碼支付是最不智能的發明！

美國華人直言：中國手機掃碼支付是最不智能的發明！

阿傖說事

2026-01-20 12:53:01

默茨還沒在北京入座，德國對華鷹派先攤牌了，中方恐將以1敵27國

默茨還沒在北京入座，德國對華鷹派先攤牌了，中方恐將以1敵27國

奇奇圈

2026-02-25 09:24:46

當年舉債120億“吞”下沃爾沃！如今16年過去，李書福賺了多少？

當年舉債120億“吞”下沃爾沃！如今16年過去，李書福賺了多少？

牛鍋巴小釩

2026-02-25 15:15:15

明起，東莞開啟倒水模式！要曬衣被的趕緊！

明起，東莞開啟倒水模式！要曬衣被的趕緊！

東莞潮事兒

2026-02-25 12:13:21

一個非常不好的消息：中國超2億獨生子女面臨的非常嚴峻問題。

一個非常不好的消息：中國超2億獨生子女面臨的非常嚴峻問題。

百態人間

2026-02-05 15:39:14

坑慘了！網約車等乘客1個多小時被取消訂單，司機反被平臺罰了650

坑慘了！網約車等乘客1個多小時被取消訂單，司機反被平臺罰了650

用車指南

2026-02-25 10:00:32

美國一旦霸權結束，一定會滅亡的三個國家，排第一的果然是它

美國一旦霸權結束，一定會滅亡的三個國家，排第一的果然是它

霽寒飄雪

2026-02-25 16:55:39

“我就是她取精生子的工具”清華學霸哭訴，撕開了女富豪的遮羞布

“我就是她取精生子的工具”清華學霸哭訴，撕開了女富豪的遮羞布

北緯的咖啡豆

2026-02-20 19:12:17

伊朗要死！

求實處

2026-02-22 17:53:28

笑裂了，山航起飛心驟停，網友:謝謝機長不殺之恩！

笑裂了，山航起飛心驟停，網友:謝謝機長不殺之恩！

夜深愛雜談

2025-12-09 20:24:32

重磅實錘！俄親戰大V自曝：俄軍進攻潛力已耗盡

重磅實錘！俄親戰大V自曝：俄軍進攻潛力已耗盡

老馬拉車莫少裝

2026-02-25 08:57:51

打伊朗前，美國找到中國，特朗普知道：他錯一步，中國就不戰而勝

打伊朗前，美國找到中國，特朗普知道：他錯一步，中國就不戰而勝

頭條爆料007

2026-02-24 14:44:25

貝加爾湖慘案只報“救出一人”，本質就是護著俄羅斯的臉面

貝加爾湖慘案只報“救出一人”，本質就是護著俄羅斯的臉面

壹家言

2026-02-25 16:11:34

可打航母！外媒：中國超音武器將運往伊朗，美150架戰機急飛中東

可打航母！外媒：中國超音武器將運往伊朗，美150架戰機急飛中東

黑鷹觀軍事

2026-02-25 17:48:10

天安門廣場上的國家博物館將在北京豐臺建分館

天安門廣場上的國家博物館將在北京豐臺建分館

澎湃新聞

2026-02-25 12:54:27

直線跳水！605033，突發“天地板”

直線跳水！605033，突發“天地板”

中國基金報

2026-02-25 14:29:20

春節剛過，鄭麗文態度變了，她這次要親自和美國談，打一場硬仗

春節剛過，鄭麗文態度變了，她這次要親自和美國談，打一場硬仗

健身狂人

2026-02-25 16:27:04

越發上頭，“日本強，美國挺，抗中國”

越發上頭，“日本強，美國挺，抗中國”

觀察者網

2026-02-25 12:01:35

別被馬斯克忽悠了！星鏈撐不起人類通訊，中國通信基建才是底氣

別被馬斯克忽悠了！星鏈撐不起人類通訊，中國通信基建才是底氣

像夢一場a

2026-02-13 20:20:26

鞏俐21歲時寫的字，顛覆了我的想象！

鞏俐21歲時寫的字，顛覆了我的想象！

石場阿鑫

2026-01-16 13:41:02

AIGC大模型及應用精選與評測

437文章數 60關注度

往期回顧全部

科技要聞

“機器人只跳舞，沒什么用”

頭條要聞

女子被害留下3個女兒無人照顧辦案警察接力資助15年

頭條要聞

女子被害留下3個女兒無人照顧辦案警察接力資助15年

體育要聞

曝雄鹿計劃今夏追小卡字母哥渴望與其并肩作戰

娛樂要聞

撒貝寧到沈陽跑親戚老婆李白模特身材

財經要聞

GEO亂象：誰為AI營銷的泡沫買單？

汽車要聞

750km超長續航 2026款小鵬X9純電版將于3月2日上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

數碼

房產

公開課

家居要聞

藝居辦公溫度與效率

本真棲居愛暖伴流年
中古雅韻樂韻伴日常
簡雅閑居靜享時光柔

本地新聞

津南好·四時總相宜

數碼要聞

蘋果終于妥協？觸屏版MacBook Pro或將面世靈動島也搬上大屏

房產要聞

海南樓市春節熱銷地圖曝光！三亞、陵水又殺瘋了！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<em id="bgftt"><rt id="bgftt"><noscript id="bgftt"></noscript></rt></em>