網易首頁 > 網易號 > 正文申請入駐

頂尖AI竟輸給三歲寶寶，BabyVision測試暴露多模態模型硬傷

2026-01-12 19:19:18　來源: 人工智能學家

北京舉報

分享至

來源：機器之心

01｜“看懂世界” 這關，大模型還沒上幼兒園

過去一年，大模型在語言與文本推理上突飛猛進：論文能寫、難題能解、甚至在頂級學術 / 競賽類題目上屢屢刷新上限。但一個更關鍵的問題是：當問題不再能 “用語言說清楚” 時，模型還能不能 “看懂”？UniPat AI 攜手紅杉中國 xbench 團隊，并聯合多家大模型公司與高校的研究員，發布新的多模態理解評測集 BabyVision。

UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式，推動其實現可泛化、可信賴的真實世界部署，并創造切實的經濟與社會價值。

如果一個視覺問題可以完全用文字描述且不丟信息，它本質上就會 “退化成文本題”。模型可以靠強大的語言推理能力一路通關，看起來很會看，其實是在走語言捷徑。而真正的視覺能力，需要在沒有語言扶梯的情況下完成：比較、追蹤、空間想象、模式歸納。而 BabyVision 證明了多模態大模型的這些純視覺能力還停留在 “三歲幼兒” 的階段！

Google DeepMind 創始人 Demis Hassabis，在 25 年終播客中也提到類似觀點：“大模型可以在國際數學奧林匹克拿金牌，卻會在小學幾何題上出錯；它能生成驚艷圖像，卻不理解杯子為什么不會飄在空中。”

blog

https://unipat.ai/blog/BabyVision

github

https://github.com/UniPat-AI/BabyVision

huggingface

https://huggingface.co/collections/UnipatAI/babyvision

02｜把頂尖模型和孩子放到同一張 “純視覺試卷”

BabyVision 先做了一項非常直接的對比實驗：把 20 道視覺中心任務（vision-centric）作為 BabyVision-Mini 交給不同年齡段孩子（3/6/10/12 歲）和當下頂尖多模態模型來做。

這份 “小試卷” 要求嚴格控制語言依賴：題目要求很簡單，答案必須靠視覺信息本身得出。

結果非常 “扎心”（如圖 1 所示）：

大多數模型的分數，聚集在明顯低于平均 3 歲兒童的區間；
Gemini3?Pro?Preview 是唯一穩定超過 3 歲基線的模型，但距離 6 歲兒童仍差約 20 個百分點。

下面是其中一道題，直觀且反直覺，連線垃圾分類，小孩可以輕松做對，但頂尖模型追蹤一條線都能追丟。

任務：三件物品沿著線分別連到哪個顏色垃圾桶？

正確答案：A - 藍，B - 黃，C - 綠
模型答案（Gemini3-Pro-Preview）：A - 綠，B - 黃，C - 藍

人類的解法幾乎是本能，從點出發沿線走到終點（下面照片是三歲幼兒真實做題痕跡）。但模型會寫出一大段 “逐段追蹤” 的推理，最后仍把兩條路徑接反：看起來 “很會分析”，其實在最基礎的視覺追蹤上掉線。

03｜BabyVision?Full 用 388 題，把視覺能力拆成 4 大類能力 22 個子任務

研究團隊將視覺能力提煉為四大核心類別，每類下細分若干子任務：

精細辨別（Fine-grained Discrimination）：分辨細微的視覺差異（8 個子任務）
視覺追蹤（Visual Tracking）：跟隨路徑、線條與運動軌跡（5 個子任務）
空間感知（Spatial Perception）：理解三維結構及其關系（5 個子任務）
視覺模式識別（Visual Pattern Recognition）：識別邏輯與幾何規律（4 個子任務）

這套設計的核心理念很明確：

不是為了 “刁難” 模型，而是量化那些 “人類直覺就會、但構成智能地基” 的視覺原子能力。這同樣是具身智能（embodied AI）走向現實世界的必修課。

為了最大程度確保 “純視覺” 考核的有效性，BabyVision 在數據構建上也下足了工夫。

項目團隊首先參考了兒童認知教材和視覺發育測驗，梳理出了上述 4 大類共 22 種基礎視覺子任務。

接著，每個子技能挑選出 2-3 個種子示例（種子圖片），作為該類型任務的典型代表。基于這些種子示例，研究者利用逆向圖像搜索和關鍵詞搜索，從互聯網上爬取了約 4000 張相似的候選圖片。

在數據收集過程中，團隊嚴格遵守版權規范，只挑選可用于非商業或學術用途的素材，并過濾掉可能包含大量文字說明或需要文化常識才能理解的圖片。由此獲得的海量圖片進入人工標注環節：多名專業人員逐一檢查圖片，篩除不適合出題的樣本，對保留下來的圖片精心設計問題和標準答案。為了確保答案的客觀正確，每個問題還附有詳細的 “解題過程” 說明，以證明答案確實可由視覺推理得出。

最終，所有標注完成的問題都經過 “雙盲質檢”—— 兩位獨立專家交叉審核，每道題只有在雙方都認可其答案無誤、推理嚴謹的情況下才被收錄；若出現異議則退回修改，反復仍無法達成一致的題目則果斷棄用。經過這一系列嚴苛的篩選，BabyVision 最終產出了 388 道高質量視覺題目，涵蓋 22 種子任務。

最終評測結果：人類 94.1%，最強閉源 49.7%，最強開源 22.2%

在 BabyVision?Full 上，研究團隊引入了人類基線，16 位至少本科背景的測試者完成全量 388 題，人類準確率達94.1%。

再看模型：

閉源最強：Gemini3?Pro?Preview 49.7%
其后：GPT?5.2 34.8%、Doubao?1.8 30.2%

開源側：

最強模型（Qwen3VL?235B?Thinking）整體22.2%，多數模型在 12–19% 區間。

更關鍵的是：差距不是集中在某一個類別。四大類能力都在下滑，說明這是 “系統性缺基礎視覺能力”，而非某個單點缺陷。一些子任務甚至幾乎 “全員翻車”，例如Count 3D Blocks在多模型中普遍偏低，暴露的是模型結構化場景能力不足。

04｜為什么會這樣？因為這些視覺推理題目是沒法用語言描述的（Unspeakable）

最反直覺的地方在于：

BabyVision 里的很多題，對人類來說不難，甚至孩子會用指一指、圈一圈、沿著線走一遍就搞定。

但模型一旦用文字去 “復述” 視覺，再用語言推理去算，信息就丟了。

研究團隊把這種現象概括為：

這些視覺題是 “unspeakable” 的，無法在不損失信息的情況下被完整語言化；模型試圖把視覺壓縮成 token，細節在壓縮中消失。

并進一步總結了 4 類典型挑戰：

挑戰 1：看不見 “非語言細節”（Observing Non-Verbal Details）

比如拼圖 / 補全題里，選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位。

人類憑幾何直覺 “對齊邊界” 就能秒選；
模型一旦把形狀用語言概括成 “像鉤子、兩個腿、差不多七八個六邊形”，細節就被抹平，選項在 token 空間里變得 “幾乎一樣”。

挑戰 2：追線追丟了（Manifold Understanding）

連線 / 繞線 / 軌跡題，答案編碼在 “連通性” 里：

人類是鎖定一條線→穿過交叉→一路追到終點；
模型往往把線翻譯成 “左 / 右 / 上 / 下” 的離散步驟，一遇到交叉點就出現分叉爆炸，容易 “換軌” 追錯線。

挑戰 3：缺少真正的空間想象（Spatial Imagination）

三維方塊計數、視角投影、遮擋下的結構判斷，人類通常不是 “用語言一步步描述”，而是把結構在腦中 “立起來”，換個角度看，再數。

模型則容易犯兩類錯誤：漏掉隱藏塊、投影關系搞錯。這不是邏輯差，而是缺少穩定的 3D 內部表征與變換能力。

挑戰 4：圖形規律歸納難（Visual Pattern Induction）

這類題要求從少量視覺示例里抽象出規則，再遷移到新圖。

人類做的是關系映射，真正決定正確性的是 “發生了什么變化” 而不是 “那里有什么”，具體的形狀、顏色、絕對位置都可以變，只有它們在變換中的 “身份” 不變。

模型常常盯著表面屬性（顏色、形狀），把 “結構規則” 誤讀成 “外觀統計”，導致遷移時幻覺規則。

05｜如果不讓它用文字回答，讓它 “畫” 呢？BabyVision?Gen 給出一個新方向

當文本推理不夠用，一個自然的問題出現了：

能不能讓模型像孩子一樣，用畫、圈、連線、描軌跡來作答？

于是有了 BabyVision?Gen：

從原基準中重新標注出280 道適合 “生成式作答” 的題
要求模型輸出圖像 / 視頻來表達解題過程或答案
并開發了自動評測工具，與人工評測一致性達95%

研究團隊在 BabyVision?Gen 上評測了多種生成模型（包括 Nano?Banana?Pro、Qwen?Image、Veo?3、Sora?2）。現階段得到的結論很克制但重要：

生成式推理在視覺追蹤、精細辨別等 VLM 易翻車任務上出現 “更像人類” 的行為（會真的去畫軌跡、做標注）；
但整體仍然缺乏穩定到達完全正確解的能力。

這至少說明：把視覺推理 “落地到視覺操作” 上，可能是補齊短板的一條路。

下面看一個具體的例子：

任務：用紅線沿著從左上角圖形延伸出的那條線，完整地描出其全程路徑。

Sora2

NanoBanana-pro

06｜為什么 BabyVision 重要？因為現實世界不靠語言提示

正如研究團隊在 Blog（https://unipat.ai/blog/BabyVision）中所寫：

很難想象一個視覺能力低于 3 歲孩子的機器人，能夠可靠地在真實物理世界里幫助人類。

今天，多模態模型 “會說會寫” 已經很強。

但要走向真正的通用智能與具身智能，視覺地基必須補上：

看得準（細粒度辨別）
追得住（軌跡 / 連通性）
想得出（3D 結構想象）
歸納得了（圖形規則遷移）

BabyVision 的價值正在于：把 “看懂世界” 拆成可測量、可診斷、可迭代的 22 個原子能力，告訴我們差距到底在哪里、下一步該補什么，從而引導多模態大模型發展。

UniPat

UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式，推動其實現可泛化、可信賴的真實世界部署，并創造切實的經濟與社會價值。

官網鏈接：https://unipat.ai

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.