<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<button id="0rdfh"><acronym id="0rdfh"><strong id="0rdfh"></strong></acronym></button>

<table id="0rdfh"></table>

<pre id="0rdfh"></pre>

<tt id="0rdfh"></tt>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

紅杉xbench評測：大模型的視覺能力，普遍低于3歲兒童

2026-01-12 11:15:48　來源: 賽博禪心

北京舉報

0

分享至

紅杉中國 xbench 和 UniPat AI 發了一個新的多模態評測集，叫 BabyVision，在這里：

核心發現：當前最強的多模態模型，在純視覺任務上的得分，普遍低于3歲兒童

人類準確率 94.1%
而在模型當中，Gemini 3 Pro Preview 最高，49.7%
大多數模型，則在 12-22% 區間

這個評測的設計思路有點意思，和大家分享一下

先看一道題

三件物品，沿著線分別連到哪個顏色垃圾桶？

正確答案：A-藍，B-黃，C-綠
Gemini 3 Pro Preview 的錯誤答案：A-綠，B-黃，C-藍

人類怎么做這道題？從點出發，沿著線走到終點
三歲小孩用手指頭比劃一下就能做對

模型怎么做？輸出一大段的推理過程，看起來很牛逼，但最后還是搞錯了
最頂尖的模型，在最基礎的視覺追蹤上，一敗涂地

這個評測在測什么

BabyVision 把視覺能力拆成了4大類，共22個子任務

精細辨別
分辨細微的視覺差異，比如找不同、補全拼圖、數相同圖案，共 8 個子任務

視覺追蹤
跟隨路徑、線條與運動軌跡，比如走迷宮、連線、地鐵圖找站，共 5 個子任務

空間感知
理解三維結構，比如數方塊、視角投影、折紙展開圖，共 5 個子任務

視覺模式識別
識別邏輯與幾何規律，比如旋轉規律、鏡像規律、邏輯推理，共 4 個子任務

這套測試有一個核心設計原則：嚴格控制語言依賴

題目要求很簡單，答案必須靠視覺信息本身得出
如果一道視覺題可以完全用文字描述且不丟信息，它本質上就會退化成文本題，模型可以靠語言推理能力一路通關

BabyVision 要測的是：當語言幫不上忙的時候，模型還能不能「看懂」

然后結果就是：在BabyVision?Full上，16 位至少本科背景的測試者完成全量 388 題，人類準確率達 94.1%，大多數模型只在 12～19%之間，具體如下

為什么模型會翻車

研究團隊用了一個詞：unspeakable

這些視覺題無法在不損失信息的情況下被完整語言化
模型試圖把視覺壓縮成 token，細節在壓縮中消失

4類典型挑戰：

挑戰 1：「非語言細節」（Observing Non-Verbal Details）

拼圖/補全題里，選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位

人類憑幾何直覺，就能秒選

模型一旦把形狀用語言概括成「像鉤子、兩個腿、差不多七八個六邊形」，細節就被抹平，選項在 token 空間里變得幾乎一樣

挑戰 2：追線追丟了（Manifold Understanding）

對于連線/繞線/軌跡之類的題，人類會始終鎖定一條線，穿過交叉，一路追到終點

模型往往把線翻譯成左/右/上/下的離散步驟，一遇到交叉點就出現分叉爆炸，容易換軌追錯線

挑戰 3：缺少真正的空間想象（Spatial Imagination）

三維方塊計數、視角投影、遮擋下的結構判斷
人類通常是把結構在腦中立起來，換個角度看，再數

模型容易犯兩類錯誤：漏掉隱藏塊、投影關系搞錯
所以嘛，大模型目前還是缺少穩定的 3D 內部表征與變換能力

挑戰 4：圖形規律歸納難（Visual Pattern Induction）

這類題，要求從少量視覺示例里抽象出規則，再遷移到新圖

人類做的是關系映射，真正決定正確性的是「發生了什么變化」，具體的形狀、顏色、絕對位置都可以變，只有它們的「身份」不變

模型常常盯著表面屬性（顏色、形狀），把「結構規則」誤讀成「外觀統計」，導致遷移時幻覺規則

BabyVision-Gen

既然文本推理不夠用，一個自然的想法：能不能讓模型像孩子一樣，用畫、圈、連線、描軌跡來作答？

BabyVision-Gen 就是這個方向的嘗試

從原基準中重新標注出 280 道適合「生成式作答」的題，要求模型輸出圖像或視頻來表達解題過程

研究團隊測了 Sora 2、Veo 3、Qwen-Image 等生成模型，比如用紅線沿著從左上角圖形延伸出的那條線，完整地描出其全程路徑，下面這個是 Sora 的實現

這個，則是 NanoBanana 的

初步結論：生成式推理在視覺追蹤、精細辨別等 VLM 易翻車的任務上，出現了「更像人類」的行為

模型會真的去畫軌跡、做標注，但整體仍然缺乏穩定，無法做到完全正確

把視覺推理「落地到視覺操作」上，可能是補齊短板的一條路

xbench 是什么

這個我得仔細說說，和 xbench 的朋友們可太熟了，一堆有趣的逗比，新模型出來后，我總是先去找他們去問，這東西靠譜么

xbench 是紅杉中國 2025 年 5 月發布的 AI 評測基準
這是全球首個由投資機構主導，核心設計是雙軌評估體系：

AGI Tracking
驗證模型在特定能力維度的智能邊界，題目追求「足夠難、巧妙、有區分度」

Profession-Aligned
把 AI 系統當作數字員工，放在具體業務流程中考察效用價值

已經發布的評測集包括 ScienceQA（研究生水平學科知識）、DeepSearch（中文互聯網深度搜索）、招聘和營銷兩個垂類場景

BabyVision 是 AGI Tracking 系列的新成員，專門測多模態的純視覺能力

Demis Hassabis 說過一句話：大模型可以在國際數學奧林匹克拿金牌，卻會在小學幾何題上出錯；它能生成驚艷圖像，卻不理解杯子為什么不會飄在空中

BabyVision 就是把這個 gap 量化出來

xbench 的設計思路是 Evergreen Evaluation
持續維護、動態更新，每月匯報最新模型表現，每季度更新評估集

作為 AGI 賽道的投資者，紅杉是有驅動力去要判斷 AI 技術何時能達到市場可落地的閾值

傳統評測集容易被刷爆，題目泄露導致過擬合，跟真實業務價值脫節，對于要投錢的事情，紅杉更會以足夠客觀的方式去評估

開源地址

website：
https://xbench.org/

blog：
https://unipat.ai/blog/BabyVision

github：
https://github.com/UniPat-AI/BabyVision

huggingface：
https://huggingface.co/collections/UnipatAI/babyvision

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

英偉達拿出推理版VLA：Alpamayo-R1讓自動駕駛AI更會動腦子

機器之心Pro 2025-12-02 14:07:01
0 跟貼 0
AI記住失敗經驗：微軟提出Re-TRAC框架，4B性能SOTA，30B超越358B

機器之心Pro 2026-02-25 17:33:51
0 跟貼 0

北航開源Code2Bench：雙擴展動態評測，代碼大模型告別躺平刷分

機器之心Pro 2026-02-25 15:51:27
0 跟貼 0

春節AI暗戰

鈦媒體APP 2026-02-24 15:56:17
0 跟貼 0
從平面幾何出發：形式化驗證如何驅動MLLM的推理能力躍遷

機器之心Pro 2026-01-20 19:17:51
0 跟貼 0

大模型黑箱被撬開：MIT華人聯創，造出能追溯思考過程的大模型

DeepTech深科技 2026-02-24 18:51:40
1 跟貼 1

情感識別不再是分類題：EmotionThinker讓SpeechLLM 學會解釋情緒

機器之心Pro 2026-02-25 13:45:15
0 跟貼 0
最先失業的是演員

X博士 2026-02-26 12:00:38
0 跟貼 0

數據缺少標注RL能誘導模型推理嗎？Co-rewarding提供自監督RL方案

機器之心Pro 2026-02-25 17:42:40
0 跟貼 0
清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
DeepSeek新模型曝光：傳華為搶先適配

智東西 2026-02-26 13:18:24
0 跟貼 0
Minimax持續猛挖“龍蝦肉”

華爾街見聞官方 2026-02-26 12:33:33
1 跟貼 1
“2億美金薪酬”華人AI大牛跳槽OpenAI！小扎天價留不住人

智東西 2026-02-26 13:18:24
0 跟貼 0
應對意料之外的改變

經濟觀察報 2026-02-26 12:14:15
0 跟貼 0
訓練獎勵太稀疏？港中文聯合美團給Agent加上「過程分」

機器之心Pro 2026-02-25 17:27:26
0 跟貼 0
《生化危機9》首發評測：它很牛逼，但我覺得還能更好

游戲動力ATK 2026-02-25 23:04:25
6 跟貼 6
別以為這是畫畫，其實你每天都在看

安安海外視頻精選 2026-02-25 22:09:00
0 跟貼 0
《生化8》NS2性能評測：掌上60幀爽玩！

游民星空 2026-02-26 11:19:56
1 跟貼 1
“大考時刻”10萬公里耐久評測，現代Staria優缺點都很明顯

ams車評網 2026-02-22 08:35:05
1 跟貼 1
雙屏球幕電影！內蒙古唯一！快來康巴什這里免費體驗→

康巴什發布 2026-02-26 08:07:13
0 跟貼 0
破案了！電影院普遍都是紅色座椅，竟是因為它

大象新聞 2026-02-25 18:57:06
1 跟貼 1
你好，小朋友 Vol.09

膠片的味道 2026-02-25 22:10:34
0 跟貼 0
我在滁州過大年 | 春節喝酒，咱來談談酒與泉

醉美滁州 2026-02-26 10:47:51
0 跟貼 0
全景視覺的Depth Anything來了！

機器之心Pro 2025-12-29 16:54:58
0 跟貼 0
仿真落地三難點：物理、視覺、交互

量子位 2025-12-12 04:34:09
0 跟貼 0
《生化危機：安魂曲》評測解禁，成系列近21年評分最高主線作品

IT之家 2026-02-26 10:14:14
0 跟貼 0
很準的幾個夫妻規律，丈夫先走的，妻子一個人能活到90！

開心一笑搞笑 2026-02-24 09:33:58
1 跟貼 1
新春走基層|馬躍新程 5位屬馬人的跨齡對話

中國經濟網 2026-02-25 17:52:04
0 跟貼 0
近百萬元存款被悄悄轉走！上海獨居老太毫無察覺，還說“我有兩套房，你可以搬來同住”

瀟湘晨報 2026-02-25 16:39:13
6141 跟貼 6141
老輩人總結的規律，老頭先走，老太太大多長壽！

快樂瞬間 2026-02-23 13:11:08
0 跟貼 0
華為CLI-Gym：環境交互類任務首個公開的數據Scaling方案

機器之心Pro 2026-02-25 15:18:22
0 跟貼 0
“36斤活羊烤完剩6.9斤”，網友質疑店家約剔除5斤，有博主現場做實驗測重

大風新聞 2026-02-25 23:10:03
3807 跟貼 3807
施工現場磚塊運輸過程，看著有點像模型，竟還有點好玩！

幽默小火山 2026-02-25 11:39:53
1 跟貼 1
日本計劃部署導彈部隊距臺灣僅110公里中方強硬表態

環球網資訊 2026-02-26 06:54:33
3957 跟貼 3957
阿里高德發布SpatialGenEval，揭秘誰才是真正的文生圖大師

機器之心Pro 2026-02-24 19:24:57
0 跟貼 0
Gemini 3僅得33.6分！清華發布首個「約束流形」空間智能基準

新智元 2026-02-25 14:01:00
1 跟貼 1
看似完整的鸚鵡雕塑，一換角度就消失，原來是視覺錯覺

科學大搜索 2026-02-24 15:26:56
2 跟貼 2
中華人民共和國和德意志聯邦共和國聯合新聞聲明

新華社 2026-02-25 21:46:25
654 跟貼 654
微信出新功能，網友：簡直是社恐福音

南方都市報 2026-02-25 16:59:07
284 跟貼 284
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1619 跟貼 1619

若熱刺降級將遭遇英超史上最大營收跌幅，歐冠奪冠也難彌補損失

若熱刺降級將遭遇英超史上最大營收跌幅，歐冠奪冠也難彌補損失

星耀國際足壇

2026-02-25 23:16:33

聯合國預警：稀土已成煙霧彈，2030中國將用供應鏈絞殺美工制造

聯合國預警：稀土已成煙霧彈，2030中國將用供應鏈絞殺美工制造

近史博覽

2026-02-26 11:59:43

400億！沈騰徹底飛馳了

華商韜略

2026-02-25 10:34:36

美防長發出戰爭威脅，若真敢開戰將會比抗美援朝付出的傷亡會更大

美防長發出戰爭威脅，若真敢開戰將會比抗美援朝付出的傷亡會更大

文史旺旺旺

2026-01-16 21:22:17

遭多國退貨，演習不敵殲10C，實戰被擊落，中國的蘇35還有啥用？

遭多國退貨，演習不敵殲10C，實戰被擊落，中國的蘇35還有啥用？

書紀文譚

2026-02-25 20:51:08

倒查13年，央國企已經慌了

公路養護

2026-02-26 11:25:43

中方高規格招待，默茨接過鮮花，走進人民大會堂前，他喊出9個字

中方高規格招待，默茨接過鮮花，走進人民大會堂前，他喊出9個字

影孖看世界

2026-02-25 23:40:20

見義勇為的平頂山抱孩子大姐找見了,平頂山的口碑,大姐一個人扛起

見義勇為的平頂山抱孩子大姐找見了,平頂山的口碑,大姐一個人扛起

觀察鑒娛

2026-02-25 10:29:44

春節返程名場面：全網都在錯峰，結果全堵在高速開“聰明人大會”

春節返程名場面：全網都在錯峰，結果全堵在高速開“聰明人大會”

據說說娛樂

2026-02-26 01:36:18

抵達故宮前，默茨把最想要的說漏了嘴，中方當面回復，措辭不尋常

抵達故宮前，默茨把最想要的說漏了嘴，中方當面回復，措辭不尋常

寄星夜幕星河

2026-02-26 09:07:10

都說“得民心者得天下”，他得了民心，為何卻失了天下？

都說“得民心者得天下”，他得了民心，為何卻失了天下？

王嚾曉

2026-02-25 18:26:02

馬場成全國總價地王，一場安排好的復蘇show

馬場成全國總價地王，一場安排好的復蘇show

鄧浩志教買房

2026-02-25 22:07:42

火箭11人有得分，底薪后衛14+7 傷病讓烏度卡醒悟 2將有輪換實力

火箭11人有得分，底薪后衛14+7 傷病讓烏度卡醒悟 2將有輪換實力

替補席看球

2026-02-26 11:33:40

“女排之父”袁偉民，造就了一番輝煌后，晚年生活卻過成如此

“女排之父”袁偉民，造就了一番輝煌后，晚年生活卻過成如此

小兔子的快樂

2026-02-18 20:26:11

哈登骨折！雄鹿復仇騎士，阿倫創隊史第8神跡，波特20+5送準絕殺

哈登骨折！雄鹿復仇騎士，阿倫創隊史第8神跡，波特20+5送準絕殺

老侃侃球

2026-02-26 11:32:28

女子跨省赴胖東來1小時消費近15萬買100克黃金：相信胖東來品質買完還想買

女子跨省赴胖東來1小時消費近15萬買100克黃金：相信胖東來品質買完還想買

閃電新聞

2026-02-26 10:51:25

亂了亂了！馬里寧被曝腳踏三只船男子第八到底愛的是女子第幾名？

亂了亂了！馬里寧被曝腳踏三只船男子第八到底愛的是女子第幾名？

勁爆體壇

2026-02-26 10:42:02

現在終于懂了，為什么王一博在鞋圈里，被不少人叫作“財神爺

現在終于懂了，為什么王一博在鞋圈里，被不少人叫作“財神爺

小光侃娛樂

2026-02-25 17:35:03

德國總理應邀訪華，因出言不遜行程被壓縮！

德國總理應邀訪華，因出言不遜行程被壓縮！

談芯說科技

2026-02-24 23:51:25

開國上將找縣長辦事，卻被縣長給銬起來，當眾狂言：這里我說了算

開國上將找縣長辦事，卻被縣長給銬起來，當眾狂言：這里我說了算

芊芊子吟

2026-02-25 21:30:05

拜AI古佛，修賽博禪心

302文章數 44關注度

往期回顧全部

科技要聞

單季營收681億凈利429億！英偉達再次炸裂

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

頭條要聞

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

體育要聞

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財經要聞

短劇市場風云突變！有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新四門玩趣代步車來襲

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

藝術

健康

教育

房產

家居要聞

歸隱于都市慢享自由

藝居辦公溫度與效率
本真棲居愛暖伴流年
中古雅韻樂韻伴日常

藝術要聞

2025年百家金陵畫展 | 油畫作品選刊

轉頭就暈的耳石癥，能開車上班嗎？

教育要聞

從“不能出教室”到“必須動起來”：學校真的做得到嗎？

房產要聞

2.2萬/m2起！三亞主城性價比標桿海墾·桃花源實景現房春節被瘋搶

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<blockquote id="hwqdi"><span id="hwqdi"></span></blockquote>

<mark id="hwqdi"></mark>

<samp id="hwqdi"></samp>