<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型拿金牌卻輸給三歲寶寶!一套「純視覺考卷」把頂尖VLM打回幼兒園

      0
      分享至


      新智元報道

      編輯:定慧

      【新智元導讀】大模型能寫代碼、解奧數,卻連幼兒園小班都考不過?簡單的連線找垃圾桶、數積木,人類一眼即知,AI卻因為無法用語言「描述」視覺信息而集體翻車。大模型到底「懂不懂」,這個評測基準給出答案。

      過去一年,大模型在語言與文本推理上突飛猛進:論文能寫、難題能解、甚至在頂級學術/競賽類題目上屢屢刷新上限。

      但一個更關鍵的問題是:當問題不再能「用語言說清楚」時,模型還能不能「看懂」?

      為了測評模型能不能「看懂」,以及能「看懂」多少,UniPat AI攜手紅杉中國xbench團隊,并聯合多家大模型公司與高校的研究員,發布新的多模態理解評測集BabyVision。

      UniPat AI致力于構建真實場景下AI訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。

      如果一個視覺問題可以完全用文字描述且不丟信息,它本質上就會退化成文本題。

      模型可以靠強大的語言推理能力一路通關,看起來很會「看」,其實是在走語言捷徑。

      而真正的視覺能力,需要在沒有語言扶梯的情況下完成:比較、追蹤、空間想象、模式歸納。

      Google DeepMind創始人Demis Hassabis曾提到類似觀點:

      「大模型可以在國際數學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中?!?/p>

      展望2026年,我們判斷世界模型與視覺多模態將迎來新一輪突破性進展。

      值此開年之際,UniPat AI聯合xbench率先拋出關鍵問題和全新「考卷」,以此迎接并參與新一輪技術突破的到來。

      讓頂尖模型和孩子做同一張試卷

      BabyVision先做了一項非常直接的對比實驗:把20道視覺中心任務(vision-centric)作為BabyVision-Mini交給不同年齡段孩子(3/6/10/12歲)和當下頂尖多模態模型來做。

      這份「小試卷」要求嚴格控制語言依賴:題目要求很簡單,答案必須靠視覺信息本身得出。

      而最終評測結果顯示:在「看懂世界」這方面,大模型還沒上幼兒園:

      • 大多數模型的分數,聚集在明顯低于平均3歲兒童的區間;

      • Gemini-3-Pro-Preview是唯一穩定超過3歲基線的模型,但距離6歲兒童仍差約20個百分點。


      下面是其中一道題,直觀且反直覺,連線垃圾分類,小孩可以輕松做對,但頂尖模型追蹤一條線都能追丟。

      三件物品沿著線分別連到哪個顏色垃圾桶?A, B, C分別表示上方從左到右的三個物體。



      << 左右滑動查看下一張圖片 >>

      • 正確答案:A-藍,B-黃,C-綠

      • 模型答案(Gemini3-Pro-Preview):A-綠,B-黃,C-藍

      人類的解法幾乎是本能,從點出發沿線走到終點(右側照片是三歲幼兒真實做題痕跡)。

      但模型會寫出一大段「逐段追蹤」的推理,最后仍把兩條路徑接反:看起來「很會分析」,其實在最基礎的視覺追蹤上掉線。

      BabyVision-Full把視覺能力拆成4大類

      研究團隊將視覺能力提煉為四大核心類別,每類下細分若干子任務:

      • 精細辨別(Fine-grained Discrimination):分辨細微的視覺差異(8 個子任務)

      • 視覺追蹤(Visual Tracking):跟隨路徑、線條與運動軌跡(5 個子任務)

      • 空間感知(Spatial Perception):理解三維結構及其關系(5 個子任務)

      • 視覺模式識別(VisualPattern Recognition:識別邏輯與幾何規律(4 個子任務)

      這套設計的核心理念很明確:不是為了「刁難」模型,而是量化那些「人類直覺就會、但構成智能地基」的視覺原子能力。

      這同樣是具身智能(embodied AI)走向現實世界的必修課。

      為了最大程度確?!讣円曈X」考核的有效性,BabyVision在數據構建上也下足了工夫。

      項目團隊首先參考了兒童認知教材和視覺發育測驗,梳理出了上述4大類共22種基礎視覺子任務。

      接著,每個子技能挑選出 4-5 個種子示例(種子圖片),作為該類型任務的典型代表。

      基于這些種子示例,研究者利用逆向圖像搜索和關鍵詞搜索,從互聯網上爬取了約4000張相似的候選圖片。

      在數據收集過程中,團隊嚴格遵守版權規范,只挑選可用于非商業或學術用途的素材,并過濾掉可能包含大量文字說明或需要文化常識才能理解的圖片。

      由此獲得的海量圖片進入人工標注環節:多名專業人員逐一檢查圖片,篩除不適合出題的樣本,對保留下來的圖片精心設計問題和標準答案。

      為了確保答案的客觀正確,每個問題還附有詳細的「解題過程」說明,以證明答案確實可由視覺推理得出。

      最終,所有標注完成的問題都經過「雙盲質檢」——兩位獨立專家交叉審核,每道題只有在雙方都認可其答案無誤、推理嚴謹的情況下才被收錄 ;若出現異議則退回修改,反復仍無法達成一致的題目則果斷棄用。

      經過這一系列嚴苛的篩選,BabyVision最終產出了388道高質量視覺題目,涵蓋22種子任務。


      最終評測結果

      在BabyVision-Full上,研究團隊引入了人類基線,16位至少本科背景的測試者完成全量388題,人類準確率達94.1%。

      再看模型:

      ?閉源最強:Gemini-3-Pro Preview49.7%

      開源側:

      ? 最強模型(Qwen-3-VL-235B-Thinking)整體為22.2%,多數模型在12–19%區間。

      更關鍵的是:差距不是集中在某一個類別。

      四大類能力都在下滑,說明這是「系統性缺基礎視覺能力」,而非某個單點缺陷。

      一些子任務甚至幾乎「全員翻車」,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型結構化場景能力不足。


      為什么會這樣?

      這些題目unspeakable

      最反直覺的地方在于:BabyVision里的很多題,對人類來說不難,甚至孩子會用指一指、圈一圈、沿著線走一遍就搞定。

      但模型一旦用文字去「復述」視覺,再用語言推理去算,信息就丟了。

      研究團隊把這種現象概括為:「這些視覺題是「unspeakable」的,無法在不損失信息的情況下被完整語言化;模型試圖把視覺壓縮成token,細節在壓縮中消失?!?/p>

      并進一步總結了4類典型挑戰:


      挑戰 1:「非語言細節」(Observing Non-Verbal Details)


      比如拼圖/補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位。

      人類憑幾何直覺「對齊邊界」就能秒選,但模型一旦把形狀用語言概括成「像鉤子、兩個腿、差不多七八個六邊形」,細節就被抹平,選項在token空間里變得「幾乎一樣」。


      挑戰 2:追線追丟了(Manifold Understanding)


      連線/繞線/軌跡題,答案編碼在「連通性」里:

      人類是鎖定一條線→穿過交叉→一路追到終點;

      模型往往把線翻譯成「左/右/上/下」的離散步驟,一遇到交叉點就出現分叉爆炸,容易「換軌」追錯線。


      挑戰 3:缺少真正的空間想象(Spatial Imagination)


      三維方塊計數、視角投影、遮擋下的結構判斷,人類通常不是「用語言一步步描述」,而是把結構在腦中「立起來」,換個角度看,再數。

      模型則容易犯兩類錯誤:漏掉隱藏塊、投影關系搞錯。這不是邏輯差,而是缺少穩定的3D內部表征與變換能力。


      挑戰 4:圖形規律歸納難(Visual Pattern Induction)


      這類題要求從少量視覺示例里抽象出規則,再遷移到新圖。

      人類做的是關系映射,真正決定正確性的是「發生了什么變化」而不是「那里有什么」,具體的形狀、顏色、絕對位置都可以變,只有它們在變換中的「身份」不變。

      模型常常盯著表面屬性(顏色、形狀),把「結構規則」誤讀成「外觀統計」,導致遷移時幻覺規則。

      BabyVision-Gen給出一個新方向

      當文本推理不夠用,一個自然的問題出現了:

      能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

      于是,有了BabyVision-Gen:

      ? 從原基準中重新標注出280道適合「生成式作答」的題

      ?要求模型輸出圖像/視頻來表達解題過程或答案

      ?并開發了自動評測工具,與人工評測一致性達96%

      研究團隊在BabyVision-Gen上評測了多種生成模型(包括Nano Banana Pro、Qwen-Image、Veo 3、Sora 2)。

      現階段得到的結論很克制但重要:

      ? 生成式推理在視覺追蹤、精細辨別等VLM易翻車任務上出現「更像人類」的行為(會真的去畫軌跡、做標注);

      ? 但整體仍然缺乏穩定到達完全正確解的能力。

      這至少說明:把視覺推理「落地到視覺操作」上,可能是補齊短板的一條路。

      下面看一個具體的例子:用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑。

      Sora 2:

      Nano Banana Pro:


      為什么BabyVision重要?

      正如研究團隊在Blog中所寫:

      「很難想象一個視覺能力低于3歲孩子的機器人,能夠可靠地在真實物理世界里幫助人類?!?/strong>

      今天,多模態模型「會說會寫」已經很強,但要走向真正的通用智能與具身智能,視覺地基必須補上:看得準(細粒度辨別),追得?。ㄜ壽E/連通性),想得出(3D結構想象),歸納得了(圖形規則遷移)。

      因此,BabyVision的價值正在于:

      把「看懂世界」拆成可測量、可診斷、可迭代的22個原子能力,告訴我們差距到底在哪里、下一步該補什么,從而引導多模態大模型發展。

      開源地址

      blog

      https://unipat.ai/blog/BabyVision

      github

      https://github.com/UniPat-AI/BabyVision

      huggingface

      https://huggingface.co/collections/UnipatAI/babyvision

      UniPat

      UniPat AI致力于構建真實場景下AI訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。

      官網鏈接:https://unipat.ai

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      再見歐文,真徹底不打了?。。?>
    </a>
        <h3>
      <a href=再見歐文,真徹底不打了?。。?/a> 體育新角度
      2026-01-12 16:21:14
      糖尿病去世的人越來越多!建議:2不喝、3不吃、1堅持,別馬虎了

      糖尿病去世的人越來越多!建議:2不喝、3不吃、1堅持,別馬虎了

      健康之光
      2026-01-04 09:38:06
      國產車尷尬了?國外機構評測:沒有實體按鍵的汽車,安全性差一些

      國產車尷尬了?國外機構評測:沒有實體按鍵的汽車,安全性差一些

      互聯網.亂侃秀
      2026-01-11 10:48:10
      上任僅8個月!皇馬宣布阿隆索下課 阿韋洛亞火線上任

      上任僅8個月!皇馬宣布阿隆索下課 阿韋洛亞火線上任

      球事百科吖
      2026-01-13 05:46:11
      內訌爆發!曝快船兩大核心矛盾激化!公開指責,表達不滿!

      內訌爆發!曝快船兩大核心矛盾激化!公開指責,表達不滿!

      King迪哥侃球
      2026-01-11 21:58:15
      李在明訪華剛回國,就通告全球,與高市共進晚餐,3億大單白簽?

      李在明訪華剛回國,就通告全球,與高市共進晚餐,3億大單白簽?

      尋墨閣
      2026-01-13 05:03:18
      中國最敗家的兒子:為追求女明星與文強約架,在天上人間激起動蕩

      中國最敗家的兒子:為追求女明星與文強約架,在天上人間激起動蕩

      凱裕說故事
      2024-12-19 10:12:44
      遼寧男籃,這四名國內球員,真的不能再用了

      遼寧男籃,這四名國內球員,真的不能再用了

      小樓侃體育
      2026-01-12 13:40:59
      王者歸來!新機官宣:2月25日,正式發布登場!

      王者歸來!新機官宣:2月25日,正式發布登場!

      科技堡壘
      2026-01-11 11:45:36
      5萬一套海景房成“鬼城”!200戶僅20戶住,老人靠賣煎餅勉強維生

      5萬一套海景房成“鬼城”!200戶僅20戶住,老人靠賣煎餅勉強維生

      墨蘭史書
      2026-01-13 03:40:03
      月老揭示:如果兒女30多歲還沒找到另一半,家里要改掉這3件事!

      月老揭示:如果兒女30多歲還沒找到另一半,家里要改掉這3件事!

      千秋文化
      2025-11-14 10:07:18
      2026年,大部分醫護人員的存款終將耗盡!

      2026年,大部分醫護人員的存款終將耗盡!

      黯泉
      2026-01-12 22:22:04
      阿姨們的打扮既得體又有女人味

      阿姨們的打扮既得體又有女人味

      牛彈琴123456
      2026-01-11 15:05:14
      3-0,23歲AC米蘭舊將閃耀意甲,42歲德羅西率隊3輪不敗+遠離降級區

      3-0,23歲AC米蘭舊將閃耀意甲,42歲德羅西率隊3輪不敗+遠離降級區

      俯身沖頂
      2026-01-13 04:58:00
      歷史性勝利后,U23國足再度挑戰“打平就出線”的魔咒

      歷史性勝利后,U23國足再度挑戰“打平就出線”的魔咒

      澎湃新聞
      2026-01-12 07:36:45
      委內瑞拉局勢再度逆轉!特朗普遭遇暴擊,軍事行動被證明就是個笑話!

      委內瑞拉局勢再度逆轉!特朗普遭遇暴擊,軍事行動被證明就是個笑話!

      一個壞土豆
      2026-01-12 19:46:49
      反轉了!居然全是演的!視頻已清空

      反轉了!居然全是演的!視頻已清空

      瑯琊新聞網
      2026-01-11 23:34:05
      官至副國級,退休卻回村養豬?他是華國鋒的接班人,這結局誰能信

      官至副國級,退休卻回村養豬?他是華國鋒的接班人,這結局誰能信

      歷史回憶室
      2026-01-12 22:29:20
      陪睡陪玩只是冰山一角!萬達蒸發800億后,王思聰再次傳出大丑聞

      陪睡陪玩只是冰山一角!萬達蒸發800億后,王思聰再次傳出大丑聞

      阿器談史
      2025-12-26 15:26:05
      廣東16歲女兒被父親過度寵溺,被母親回家撞見后,失控將其砍死

      廣東16歲女兒被父親過度寵溺,被母親回家撞見后,失控將其砍死

      曉艾故事匯
      2024-11-04 10:55:36
      2026-01-13 06:32:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14319文章數 66456關注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      "搖人殺豬"女孩一天漲粉150萬:我捅了大婁子

      頭條要聞

      "搖人殺豬"女孩一天漲粉150萬:我捅了大婁子

      體育要聞

      一場安東尼奧式勝利,給中國足球帶來驚喜

      娛樂要聞

      蔡少芬結婚18周年,與張晉過二人世界

      財經要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      房產
      旅游
      本地
      公開課
      軍事航空

      房產要聞

      重磅調規!417畝商改住+教育地塊!??谖骱0队忠l!

      旅游要聞

      江蘇泗洪造雪迎春:一個鄉村營地的破冬之路,解鎖縣域文旅新密碼

      本地新聞

      云游內蒙|“包”你再來?一座在硬核里釀出詩意的城

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      官方確認:殲10CE在空戰中擊落多架戰機

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产精品久久青草无码| 制服国产欧美亚洲日韩| 国产欧美一区二区精品久久久| 黄瓜视频在线观看| 亚洲av熟女| 品精免费产品精品综合精品综合| 国产精品视频一区国模私拍| 九九香蕉视频| 狠狠婷婷综合久久久久久| www.91国产| 人妻无码久久| 欧洲码亚洲码的区别入口| 国产超碰AV人人做人人爽| 国产av激情久久无码天堂| 国产美女精品AⅤ在线老女人| 国产成人av免费网址| 永久免费mv入口| 久久月本道色综合久久| 中文字幕久久精品波多野结| 国产精品丝袜美女在线观看| www片香蕉内射在线88av8| 国产午夜无码精品免费看| 国产欧美日韩另类在线专区 | 无码人妻黑人中文字幕| 奇米成人| 日韩一卡2卡3卡4卡新区亚洲| 无码精品a∨在线观看中文| 久久国产免费福利永久| 国产国语亲子伦亲子| 新巴尔虎左旗| 97人妻天天爽夜夜爽二区| 91在线小视频| 99久久久无码国产精品免费 | 少妇极品熟妇人妻无码| 亚洲欧美综合| www.啪啪白浆| 谁有老熟女网站| 日韩美女久久| 久久综合激情网| 亚洲熟妇av不卡一区二区三区| 免费无码又爽又黄又刺激网站|