紅杉中國 xbench 和 UniPat AI 發了一個新的多模態評測集,叫 BabyVision,在這里:
核心發現:當前最強的多模態模型,在純視覺任務上的得分,普遍低于3歲兒童
人類準確率 94.1%
而在模型當中,Gemini 3 Pro Preview 最高,49.7%
大多數模型,則在 12-22% 區間
![]()
這個評測的設計思路有點意思,和大家分享一下
先看一道題
三件物品,沿著線分別連到哪個顏色垃圾桶?
![]()
正確答案:A-藍,B-黃,C-綠
Gemini 3 Pro Preview 的錯誤答案:A-綠,B-黃,C-藍
人類怎么做這道題?從點出發,沿著線走到終點
三歲小孩用手指頭比劃一下就能做對
![]()
模型怎么做?輸出一大段的推理過程,看起來很牛逼,但最后還是搞錯了
最頂尖的模型,在最基礎的視覺追蹤上,一敗涂地
這個評測在測什么
BabyVision 把視覺能力拆成了4大類,共22個子任務
![]()
精細辨別
分辨細微的視覺差異,比如找不同、補全拼圖、數相同圖案,共 8 個子任務
視覺追蹤
跟隨路徑、線條與運動軌跡,比如走迷宮、連線、地鐵圖找站,共 5 個子任務
空間感知
理解三維結構,比如數方塊、視角投影、折紙展開圖,共 5 個子任務
視覺模式識別
識別邏輯與幾何規律,比如旋轉規律、鏡像規律、邏輯推理,共 4 個子任務
這套測試有一個核心設計原則:嚴格控制語言依賴
題目要求很簡單,答案必須靠視覺信息本身得出
如果一道視覺題可以完全用文字描述且不丟信息,它本質上就會退化成文本題,模型可以靠語言推理能力一路通關
BabyVision 要測的是:當語言幫不上忙的時候,模型還能不能「看懂」
然后結果就是:在BabyVision?Full上,16 位至少本科背景的測試者完成全量 388 題,人類準確率達 94.1%,大多數模型只在 12~19%之間,具體如下
![]()
為什么模型會翻車
研究團隊用了一個詞:unspeakable
這些視覺題無法在不損失信息的情況下被完整語言化
模型試圖把視覺壓縮成 token,細節在壓縮中消失
4類典型挑戰:
挑戰 1:「非語言細節」(Observing Non-Verbal Details)
![]()
拼圖/補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位
人類憑幾何直覺,就能秒選
模型一旦把形狀用語言概括成「像鉤子、兩個腿、差不多七八個六邊形」,細節就被抹平,選項在 token 空間里變得幾乎一樣
挑戰 2:追線追丟了(Manifold Understanding)
![]()
對于連線/繞線/軌跡之類的題,人類會始終鎖定一條線,穿過交叉,一路追到終點
模型往往把線翻譯成左/右/上/下的離散步驟,一遇到交叉點就出現分叉爆炸,容易換軌追錯線
挑戰 3:缺少真正的空間想象(Spatial Imagination)
![]()
三維方塊計數、視角投影、遮擋下的結構判斷
人類通常是把結構在腦中立起來,換個角度看,再數
模型容易犯兩類錯誤:漏掉隱藏塊、投影關系搞錯
所以嘛,大模型目前還是缺少穩定的 3D 內部表征與變換能力
挑戰 4:圖形規律歸納難(Visual Pattern Induction)
![]()
這類題,要求從少量視覺示例里抽象出規則,再遷移到新圖
人類做的是關系映射,真正決定正確性的是「發生了什么變化」,具體的形狀、顏色、絕對位置都可以變,只有它們的「身份」不變
模型常常盯著表面屬性(顏色、形狀),把「結構規則」誤讀成「外觀統計」,導致遷移時幻覺規則
BabyVision-Gen
既然文本推理不夠用,一個自然的想法:能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?
BabyVision-Gen 就是這個方向的嘗試
從原基準中重新標注出 280 道適合「生成式作答」的題,要求模型輸出圖像或視頻來表達解題過程
研究團隊測了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑,下面這個是 Sora 的實現
這個,則是 NanoBanana 的
![]()
初步結論:生成式推理在視覺追蹤、精細辨別等 VLM 易翻車的任務上,出現了「更像人類」的行為
模型會真的去畫軌跡、做標注,但整體仍然缺乏穩定,無法做到完全正確
把視覺推理「落地到視覺操作」上,可能是補齊短板的一條路
xbench 是什么
這個我得仔細說說,和 xbench 的朋友們可太熟了,一堆有趣的逗比,新模型出來后,我總是先去找他們去問,這東西靠譜么
xbench 是紅杉中國 2025 年 5 月發布的 AI 評測基準
這是全球首個由投資機構主導,核心設計是雙軌評估體系:
AGI Tracking
驗證模型在特定能力維度的智能邊界,題目追求「足夠難、巧妙、有區分度」
Profession-Aligned
把 AI 系統當作數字員工,放在具體業務流程中考察效用價值
已經發布的評測集包括 ScienceQA(研究生水平學科知識)、DeepSearch(中文互聯網深度搜索)、招聘和營銷兩個垂類場景
BabyVision 是 AGI Tracking 系列的新成員,專門測多模態的純視覺能力
Demis Hassabis 說過一句話:大模型可以在國際數學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中
BabyVision 就是把這個 gap 量化出來
xbench 的設計思路是 Evergreen Evaluation
持續維護、動態更新,每月匯報最新模型表現,每季度更新評估集
作為 AGI 賽道的投資者,紅杉是有驅動力去要判斷 AI 技術何時能達到市場可落地的閾值
傳統評測集容易被刷爆,題目泄露導致過擬合,跟真實業務價值脫節,對于要投錢的事情,紅杉更會以足夠客觀的方式去評估
開源地址
website:https://xbench.org/
blog:https://unipat.ai/blog/BabyVision
github:https://github.com/UniPat-AI/BabyVision
huggingface:https://huggingface.co/collections/UnipatAI/babyvision
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.