<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      紅杉xbench評測:大模型的視覺能力,普遍低于3歲兒童

      0
      分享至

      紅杉中國 xbench 和 UniPat AI 發了一個新的多模態評測集,叫 BabyVision,在這里:

      核心發現:當前最強的多模態模型,在純視覺任務上的得分,普遍低于3歲兒童

      人類準確率 94.1%
      而在模型當中,Gemini 3 Pro Preview 最高,49.7%
      大多數模型,則在 12-22% 區間


      這個評測的設計思路有點意思,和大家分享一下

      先看一道題

      三件物品,沿著線分別連到哪個顏色垃圾桶?


      正確答案:A-藍B-黃C-綠
      Gemini 3 Pro Preview 的錯誤答案:A-綠B-黃C-藍

      人類怎么做這道題?從點出發,沿著線走到終點
      三歲小孩用手指頭比劃一下就能做對


      模型怎么做?輸出一大段的推理過程,看起來很牛逼,但最后還是搞錯了
      最頂尖的模型,在最基礎的視覺追蹤上,一敗涂地

      這個評測在測什么

      BabyVision 把視覺能力拆成了4大類,共22個子任務


      精細辨別
      分辨細微的視覺差異,比如找不同、補全拼圖、數相同圖案,共 8 個子任務

      視覺追蹤
      跟隨路徑、線條與運動軌跡,比如走迷宮、連線、地鐵圖找站,共 5 個子任務

      空間感知
      理解三維結構,比如數方塊、視角投影、折紙展開圖,共 5 個子任務

      視覺模式識別
      識別邏輯與幾何規律,比如旋轉規律、鏡像規律、邏輯推理,共 4 個子任務

      這套測試有一個核心設計原則:嚴格控制語言依賴

      題目要求很簡單,答案必須靠視覺信息本身得出
      如果一道視覺題可以完全用文字描述且不丟信息,它本質上就會退化成文本題,模型可以靠語言推理能力一路通關

      BabyVision 要測的是:當語言幫不上忙的時候,模型還能不能「看懂」

      然后結果就是:在BabyVision?Full上,16 位至少本科背景的測試者完成全量 388 題,人類準確率達 94.1%,大多數模型只在 12~19%之間,具體如下


      為什么模型會翻車

      研究團隊用了一個詞:unspeakable

      這些視覺題無法在不損失信息的情況下被完整語言化
      模型試圖把視覺壓縮成 token,細節在壓縮中消失

      4類典型挑戰:

      挑戰 1:「非語言細節」(Observing Non-Verbal Details)


      拼圖/補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位

      人類憑幾何直覺,就能秒選

      模型一旦把形狀用語言概括成「像鉤子兩個腿差不多七八個六邊形」,細節就被抹平,選項在 token 空間里變得幾乎一樣

      挑戰 2:追線追丟了(Manifold Understanding)


      對于連線/繞線/軌跡之類的題,人類會始終鎖定一條線,穿過交叉,一路追到終點

      模型往往把線翻譯成左/右/上/下的離散步驟,一遇到交叉點就出現分叉爆炸,容易換軌追錯線

      挑戰 3:缺少真正的空間想象(Spatial Imagination)


      三維方塊計數、視角投影、遮擋下的結構判斷
      人類通常是把結構在腦中立起來,換個角度看,再數

      模型容易犯兩類錯誤:漏掉隱藏塊投影關系搞錯
      所以嘛,大模型目前還是缺少穩定的 3D 內部表征與變換能力

      挑戰 4:圖形規律歸納難(Visual Pattern Induction)


      這類題,要求從少量視覺示例里抽象出規則,再遷移到新圖

      人類做的是關系映射,真正決定正確性的是「發生了什么變化」,具體的形狀、顏色、絕對位置都可以變,只有它們的「身份」不變

      模型常常盯著表面屬性(顏色、形狀),把「結構規則」誤讀成「外觀統計」,導致遷移時幻覺規則

      BabyVision-Gen

      既然文本推理不夠用,一個自然的想法:能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

      BabyVision-Gen 就是這個方向的嘗試

      從原基準中重新標注出 280 道適合「生成式作答」的題,要求模型輸出圖像或視頻來表達解題過程

      研究團隊測了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑,下面這個是 Sora 的實現

      這個,則是 NanoBanana 的


      初步結論:生成式推理在視覺追蹤、精細辨別等 VLM 易翻車的任務上,出現了「更像人類」的行為

      模型會真的去畫軌跡、做標注,但整體仍然缺乏穩定,無法做到完全正確

      把視覺推理「落地到視覺操作」上,可能是補齊短板的一條路

      xbench 是什么

      這個我得仔細說說,和 xbench 的朋友們可太熟了,一堆有趣的逗比,新模型出來后,我總是先去找他們去問,這東西靠譜么

      xbench 是紅杉中國 2025 年 5 月發布的 AI 評測基準
      這是全球首個由投資機構主導,核心設計是雙軌評估體系

      AGI Tracking
      驗證模型在特定能力維度的智能邊界,題目追求「足夠難、巧妙、有區分度」

      Profession-Aligned
      把 AI 系統當作數字員工,放在具體業務流程中考察效用價值

      已經發布的評測集包括 ScienceQA(研究生水平學科知識)、DeepSearch(中文互聯網深度搜索)、招聘和營銷兩個垂類場景

      BabyVision 是 AGI Tracking 系列的新成員,專門測多模態的純視覺能力

      Demis Hassabis 說過一句話:大模型可以在國際數學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中

      BabyVision 就是把這個 gap 量化出來

      xbench 的設計思路是 Evergreen Evaluation
      持續維護、動態更新,每月匯報最新模型表現,每季度更新評估集

      作為 AGI 賽道的投資者,紅杉是有驅動力去要判斷 AI 技術何時能達到市場可落地的閾值

      傳統評測集容易被刷爆,題目泄露導致過擬合,跟真實業務價值脫節,對于要投錢的事情,紅杉更會以足夠客觀的方式去評估

      開源地址

      website:
      https://xbench.org/

      blog:
      https://unipat.ai/blog/BabyVision

      github:
      https://github.com/UniPat-AI/BabyVision

      huggingface:
      https://huggingface.co/collections/UnipatAI/babyvision

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      若熱刺降級將遭遇英超史上最大營收跌幅,歐冠奪冠也難彌補損失

      若熱刺降級將遭遇英超史上最大營收跌幅,歐冠奪冠也難彌補損失

      星耀國際足壇
      2026-02-25 23:16:33
      聯合國預警:稀土已成煙霧彈,2030中國將用供應鏈絞殺美工制造

      聯合國預警:稀土已成煙霧彈,2030中國將用供應鏈絞殺美工制造

      近史博覽
      2026-02-26 11:59:43
      400億!沈騰徹底飛馳了

      400億!沈騰徹底飛馳了

      華商韜略
      2026-02-25 10:34:36
      美防長發出戰爭威脅,若真敢開戰將會比抗美援朝付出的傷亡會更大

      美防長發出戰爭威脅,若真敢開戰將會比抗美援朝付出的傷亡會更大

      文史旺旺旺
      2026-01-16 21:22:17
      遭多國退貨,演習不敵殲10C,實戰被擊落,中國的蘇35還有啥用?

      遭多國退貨,演習不敵殲10C,實戰被擊落,中國的蘇35還有啥用?

      書紀文譚
      2026-02-25 20:51:08
      倒查13年,央國企已經慌了

      倒查13年,央國企已經慌了

      公路養護
      2026-02-26 11:25:43
      中方高規格招待,默茨接過鮮花,走進人民大會堂前,他喊出9個字

      中方高規格招待,默茨接過鮮花,走進人民大會堂前,他喊出9個字

      影孖看世界
      2026-02-25 23:40:20
      見義勇為的平頂山抱孩子大姐找見了,平頂山的口碑,大姐一個人扛起

      見義勇為的平頂山抱孩子大姐找見了,平頂山的口碑,大姐一個人扛起

      觀察鑒娛
      2026-02-25 10:29:44
      春節返程名場面:全網都在錯峰,結果全堵在高速開“聰明人大會”

      春節返程名場面:全網都在錯峰,結果全堵在高速開“聰明人大會”

      據說說娛樂
      2026-02-26 01:36:18
      抵達故宮前,默茨把最想要的說漏了嘴,中方當面回復,措辭不尋常

      抵達故宮前,默茨把最想要的說漏了嘴,中方當面回復,措辭不尋常

      寄星夜幕星河
      2026-02-26 09:07:10
      都說“得民心者得天下”,他得了民心,為何卻失了天下?

      都說“得民心者得天下”,他得了民心,為何卻失了天下?

      王嚾曉
      2026-02-25 18:26:02
      馬場成全國總價地王,一場安排好的復蘇show

      馬場成全國總價地王,一場安排好的復蘇show

      鄧浩志教買房
      2026-02-25 22:07:42
      火箭11人有得分,底薪后衛14+7 傷病讓烏度卡醒悟 2將有輪換實力

      火箭11人有得分,底薪后衛14+7 傷病讓烏度卡醒悟 2將有輪換實力

      替補席看球
      2026-02-26 11:33:40
      “女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

      “女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

      小兔子的快樂
      2026-02-18 20:26:11
      哈登骨折!雄鹿復仇騎士,阿倫創隊史第8神跡,波特20+5送準絕殺

      哈登骨折!雄鹿復仇騎士,阿倫創隊史第8神跡,波特20+5送準絕殺

      老侃侃球
      2026-02-26 11:32:28
      女子跨省赴胖東來1小時消費近15萬買100克黃金:相信胖東來品質 買完還想買

      女子跨省赴胖東來1小時消費近15萬買100克黃金:相信胖東來品質 買完還想買

      閃電新聞
      2026-02-26 10:51:25
      亂了亂了!馬里寧被曝腳踏三只船 男子第八到底愛的是女子第幾名?

      亂了亂了!馬里寧被曝腳踏三只船 男子第八到底愛的是女子第幾名?

      勁爆體壇
      2026-02-26 10:42:02
      現在終于懂了,為什么王一博在鞋圈里,被不少人叫作“財神爺

      現在終于懂了,為什么王一博在鞋圈里,被不少人叫作“財神爺

      小光侃娛樂
      2026-02-25 17:35:03
      德國總理應邀訪華,因出言不遜行程被壓縮!

      德國總理應邀訪華,因出言不遜行程被壓縮!

      談芯說科技
      2026-02-24 23:51:25
      開國上將找縣長辦事,卻被縣長給銬起來,當眾狂言:這里我說了算

      開國上將找縣長辦事,卻被縣長給銬起來,當眾狂言:這里我說了算

      芊芊子吟
      2026-02-25 21:30:05
      2026-02-26 13:19:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數 44關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      短劇市場風云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態度原創

      家居
      藝術
      健康
      教育
      房產

      家居要聞

      歸隱于都市 慢享自由

      藝術要聞

      2025年百家金陵畫展 | 油畫作品選刊

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      從“不能出教室”到“必須動起來”:學校真的做得到嗎?

      房產要聞

      2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

      無障礙瀏覽 進入關懷版