<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

      0
      分享至


      來源:機器之心

      01|“看懂世界” 這關,大模型還沒上幼兒園

      過去一年,大模型在語言與文本推理上突飛猛進:論文能寫、難題能解、甚至在頂級學術 / 競賽類題目上屢屢刷新上限。但一個更關鍵的問題是:當問題不再能 “用語言說清楚” 時,模型還能不能 “看懂”?UniPat AI 攜手紅杉中國 xbench 團隊,并聯合多家大模型公司與高校的研究員,發布新的多模態理解評測集 BabyVision

      UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。

      如果一個視覺問題可以完全用文字描述且不丟信息,它本質上就會 “退化成文本題”。模型可以靠強大的語言推理能力一路通關,看起來很會看,其實是在走語言捷徑。而真正的視覺能力,需要在沒有語言扶梯的情況下完成:比較、追蹤、空間想象、模式歸納。而 BabyVision 證明了多模態大模型的這些純視覺能力還停留在 “三歲幼兒” 的階段 !

      Google DeepMind 創始人 Demis Hassabis,在 25 年終播客中也提到類似觀點:“大模型可以在國際數學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中。”



      blog

      https://unipat.ai/blog/BabyVision

      github

      https://github.com/UniPat-AI/BabyVision

      huggingface

      https://huggingface.co/collections/UnipatAI/babyvision

      02|把頂尖模型和孩子放到同一張 “純視覺試卷”

      BabyVision 先做了一項非常直接的對比實驗:把 20 道視覺中心任務(vision-centric)作為 BabyVision-Mini 交給不同年齡段孩子(3/6/10/12 歲)和當下頂尖多模態模型來做。

      這份 “小試卷” 要求嚴格控制語言依賴:題目要求很簡單,答案必須靠視覺信息本身得出。

      結果非常 “扎心”(如圖 1 所示):

      • 大多數模型的分數,聚集在明顯低于平均 3 歲兒童的區間;

      • Gemini3?Pro?Preview 是唯一穩定超過 3 歲基線的模型,但距離 6 歲兒童仍差約 20 個百分點。

      下面是其中一道題,直觀且反直覺,連線垃圾分類,小孩可以輕松做對,但頂尖模型追蹤一條線都能追丟。

      任務:三件物品沿著線分別連到哪個顏色垃圾桶?



      • 正確答案:A - 藍,B - 黃,C - 綠

      • 模型答案(Gemini3-Pro-Preview):A - 綠,B - 黃,C - 藍

      人類的解法幾乎是本能,從點出發沿線走到終點(下面照片是三歲幼兒真實做題痕跡)。但模型會寫出一大段 “逐段追蹤” 的推理,最后仍把兩條路徑接反:看起來 “很會分析”,其實在最基礎的視覺追蹤上掉線。

      03|BabyVision?Full 用 388 題,把視覺能力拆成 4 大類能力 22 個子任務

      研究團隊將視覺能力提煉為四大核心類別,每類下細分若干子任務:

      • 精細辨別(Fine-grained Discrimination):分辨細微的視覺差異(8 個子任務)

      • 視覺追蹤(Visual Tracking):跟隨路徑、線條與運動軌跡(5 個子任務)

      • 空間感知(Spatial Perception):理解三維結構及其關系(5 個子任務)

      • 視覺模式識別(Visual Pattern Recognition):識別邏輯與幾何規律(4 個子任務)

      這套設計的核心理念很明確:

      不是為了 “刁難” 模型,而是量化那些 “人類直覺就會、但構成智能地基” 的視覺原子能力。這同樣是具身智能(embodied AI)走向現實世界的必修課。

      為了最大程度確保 “純視覺” 考核的有效性,BabyVision 在數據構建上也下足了工夫。

      項目團隊首先參考了兒童認知教材和視覺發育測驗,梳理出了上述 4 大類共 22 種基礎視覺子任務。

      接著,每個子技能挑選出 2-3 個種子示例(種子圖片),作為該類型任務的典型代表。基于這些種子示例,研究者利用逆向圖像搜索和關鍵詞搜索,從互聯網上爬取了約 4000 張相似的候選圖片。

      在數據收集過程中,團隊嚴格遵守版權規范,只挑選可用于非商業或學術用途的素材,并過濾掉可能包含大量文字說明或需要文化常識才能理解的圖片。由此獲得的海量圖片進入人工標注環節:多名專業人員逐一檢查圖片,篩除不適合出題的樣本,對保留下來的圖片精心設計問題和標準答案。為了確保答案的客觀正確,每個問題還附有詳細的 “解題過程” 說明,以證明答案確實可由視覺推理得出。

      最終,所有標注完成的問題都經過 “雙盲質檢”—— 兩位獨立專家交叉審核,每道題只有在雙方都認可其答案無誤、推理嚴謹的情況下才被收錄 ;若出現異議則退回修改,反復仍無法達成一致的題目則果斷棄用。經過這一系列嚴苛的篩選,BabyVision 最終產出了 388 道高質量視覺題目,涵蓋 22 種子任務。


      最終評測結果:人類 94.1%,最強閉源 49.7%,最強開源 22.2%

      在 BabyVision?Full 上,研究團隊引入了人類基線,16 位至少本科背景的測試者完成全量 388 題,人類準確率達94.1%

      再看模型:

      • 閉源最強:Gemini3?Pro?Preview 49.7%

      • 其后:GPT?5.2 34.8%、Doubao?1.8 30.2%

      開源側:

      • 最強模型(Qwen3VL?235B?Thinking)整體22.2%,多數模型在 12–19% 區間。

      更關鍵的是:差距不是集中在某一個類別。四大類能力都在下滑,說明這是 “系統性缺基礎視覺能力”,而非某個單點缺陷。 一些子任務甚至幾乎 “全員翻車”,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型結構化場景能力不足。


      04|為什么會這樣?因為這些視覺推理題目是沒法用語言描述的(Unspeakable)

      最反直覺的地方在于:

      BabyVision 里的很多題,對人類來說不難,甚至孩子會用指一指、圈一圈、沿著線走一遍就搞定。

      但模型一旦用文字去 “復述” 視覺,再用語言推理去算,信息就丟了。

      研究團隊把這種現象概括為:

      這些視覺題是 “unspeakable” 的,無法在不損失信息的情況下被完整語言化;模型試圖把視覺壓縮成 token,細節在壓縮中消失。

      并進一步總結了 4 類典型挑戰:

      挑戰 1:看不見 “非語言細節”(Observing Non-Verbal Details)


      比如拼圖 / 補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位。

      • 人類憑幾何直覺 “對齊邊界” 就能秒選;

      • 模型一旦把形狀用語言概括成 “像鉤子、兩個腿、差不多七八個六邊形”,細節就被抹平,選項在 token 空間里變得 “幾乎一樣”。

      挑戰 2:追線追丟了(Manifold Understanding)


      連線 / 繞線 / 軌跡題,答案編碼在 “連通性” 里:

      • 人類是鎖定一條線→穿過交叉→一路追到終點;

      • 模型往往把線翻譯成 “左 / 右 / 上 / 下” 的離散步驟,一遇到交叉點就出現分叉爆炸,容易 “換軌” 追錯線

      挑戰 3:缺少真正的空間想象(Spatial Imagination)


      三維方塊計數、視角投影、遮擋下的結構判斷,人類通常不是 “用語言一步步描述”,而是把結構在腦中 “立起來”,換個角度看,再數。

      模型則容易犯兩類錯誤:漏掉隱藏塊、投影關系搞錯。這不是邏輯差,而是缺少穩定的 3D 內部表征與變換能力。

      挑戰 4:圖形規律歸納難(Visual Pattern Induction)


      這類題要求從少量視覺示例里抽象出規則,再遷移到新圖。

      人類做的是關系映射,真正決定正確性的是 “發生了什么變化” 而不是 “那里有什么”,具體的形狀、顏色、絕對位置都可以變,只有它們在變換中的 “身份” 不變。

      模型常常盯著表面屬性(顏色、形狀),把 “結構規則” 誤讀成 “外觀統計”,導致遷移時幻覺規則。

      05|如果不讓它用文字回答,讓它 “畫” 呢?BabyVision?Gen 給出一個新方向

      當文本推理不夠用,一個自然的問題出現了:

      能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

      于是有了 BabyVision?Gen:

      • 從原基準中重新標注出280 道適合 “生成式作答” 的題

      • 要求模型輸出圖像 / 視頻來表達解題過程或答案

      • 并開發了自動評測工具,與人工評測一致性達95%

      研究團隊在 BabyVision?Gen 上評測了多種生成模型(包括 Nano?Banana?Pro、Qwen?Image、Veo?3、Sora?2)。現階段得到的結論很克制但重要:

      • 生成式推理在視覺追蹤、精細辨別等 VLM 易翻車任務上出現 “更像人類” 的行為(會真的去畫軌跡、做標注);

      • 但整體仍然缺乏穩定到達完全正確解的能力。

      這至少說明:把視覺推理 “落地到視覺操作” 上,可能是補齊短板的一條路。

      下面看一個具體的例子:

      任務:用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑。

      Sora2

      NanoBanana-pro


      06|為什么 BabyVision 重要?因為現實世界不靠語言提示

      正如研究團隊在 Blog(https://unipat.ai/blog/BabyVision)中所寫:

      很難想象一個視覺能力低于 3 歲孩子的機器人,能夠可靠地在真實物理世界里幫助人類。

      今天,多模態模型 “會說會寫” 已經很強。

      但要走向真正的通用智能與具身智能,視覺地基必須補上:

      • 看得準(細粒度辨別)

      • 追得住(軌跡 / 連通性)

      • 想得出(3D 結構想象)

      • 歸納得了(圖形規則遷移)

      BabyVision 的價值正在于:把 “看懂世界” 拆成可測量、可診斷、可迭代的 22 個原子能力,告訴我們差距到底在哪里、下一步該補什么,從而引導多模態大模型發展。

      UniPat

      UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。

      官網鏈接:https://unipat.ai

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      琨玉秋霜
      2026-03-02 06:09:04
      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      地理三體說
      2026-01-29 21:40:34
      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      蕭鑟科普解說
      2026-02-26 06:07:11
      這老師真是絕代美人啊!

      這老師真是絕代美人啊!

      東方不敗然多多
      2026-03-01 01:09:31
      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      胖福的小木屋
      2026-03-01 22:34:51
      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      混沌錄
      2026-02-27 21:29:05
      重磅發布!“京通”APP要來了

      重磅發布!“京通”APP要來了

      家住昌平
      2026-03-02 21:27:03
      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      體育新角度
      2026-03-02 23:12:57
      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      沒有偏旁的常慶
      2026-03-01 07:00:11
      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      少數派報告Report
      2026-03-02 11:43:10
      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      三湘都市報
      2026-03-02 20:33:03
      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      參考消息
      2026-03-02 11:22:12
      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      北國向錫安
      2026-03-02 16:55:11
      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      最美的開始
      2026-02-24 19:00:14
      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      紓瑤
      2026-03-02 19:11:03
      100%賴賬,這何嘗不是一種極致的誠信!

      100%賴賬,這何嘗不是一種極致的誠信!

      財經保探長
      2026-02-28 10:46:25
      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      奇怪的鯊魚們
      2026-03-02 06:41:32
      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      林子說事
      2026-03-02 14:41:57
      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      中國能源網
      2026-03-02 11:47:11
      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      懂球帝
      2026-03-02 16:49:59
      2026-03-03 00:08:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4555文章數 37413關注度
      往期回顧 全部

      科技要聞

      蘋果中國官網上線iPhone 17e,4499元起

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      體育要聞

      “想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經要聞

      油價飆升 美伊沖突將如何攪動全球經濟

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態體驗

      態度原創

      旅游
      房產
      家居
      健康
      教育

      旅游要聞

      湄旅節后回血指南,用一場慢游,把復工焦慮留在21°C的春天里

      房產要聞

      方案突然曝光!海口北師大附校,又有書包大盤殺出!

      家居要聞

      萬物互聯 享科技福祉

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      特別猛,但在留學生心中存在感很低的英國大學!

      無障礙瀏覽 進入關懷版