<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      阿里高德發(fā)布SpatialGenEval,揭秘誰才是真正的文生圖大師

      0
      分享至



      盡管目前文生圖模型(Text-to-Image Models)在生成高保真圖像上表現(xiàn)卓越,但在應(yīng)對空間感知、空間邏輯推理及多目標(biāo)空間交互等貼合現(xiàn)實(shí)場景的復(fù)雜空間智能任務(wù)時往往力不從心。現(xiàn)有評估基準(zhǔn)主要依賴簡短或信息稀疏的提示詞,難以覆蓋復(fù)雜的空間邏輯,導(dǎo)致模型在這些關(guān)鍵空間智能維度上的能力缺陷被嚴(yán)重低估。

      來自阿里高德的一篇最新 ICLR 2026 中稿論文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生圖空間智能的系統(tǒng)性評估基準(zhǔn) SpatialGenEval,旨在通過長文本、高信息密度的 T2I prompt 設(shè)計,以及圍繞空間感知、空間推理和空間交互的 10 大空間智能能力維度設(shè)計,深入探測文生圖模型的空間智能能力邊界。



      SpatialGenEval 將生圖空間智能能力細(xì)分為 4 大維度,10 個子維度,覆蓋 25 個現(xiàn)實(shí)應(yīng)用場景,基于 23 個 SOTA 模型的評估結(jié)果表明當(dāng)前模型的空間智能能力仍有待大幅提升



      • 論文標(biāo)題:Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
      • 論文鏈接:https://arxiv.org/abs/2601.20354
      • 論文代碼:https://github.com/AMAP-ML/SpatialGenEval

      核心挑戰(zhàn):目前 T2I 模型空間認(rèn)知 “淺表化” 與邏輯缺失

      現(xiàn)有文生圖模型雖然能夠很好地完成 “生成什么”(What)的語義對齊,但在處理 “空間位置在哪里”(Where)、“空間如何排列”(How)以及物理世界中的 “空間交互邏輯”(Why)時,面臨著從 “基礎(chǔ)感知” 到 “高階推理” 的全方位挑戰(zhàn),包括:

      1. 空間基礎(chǔ)的 “屬性漂移” 與缺失:模型雖然能畫出物體,但在信息密集提示詞下,常出現(xiàn)物體漏畫或?qū)傩越壎ㄥe誤,無法維持 “萬物各司其職” 的基礎(chǔ)對齊能力。

      2. 空間感知的 “幾何偏見”:在處理物體精確位置、朝向及特定排列布局時,模型往往傾向于生成 “默認(rèn)姿態(tài)”(如正面視圖),難以跨越 2D 畫布實(shí)現(xiàn)精準(zhǔn)的空間定位。

      3. 空間推理的 “邏輯盲區(qū)”:這是當(dāng)前模型最大的短板。在涉及相對數(shù)值比較(如 “紅椅比藍(lán)椅大兩倍”)、3D 遮擋關(guān)系及物理距離鄰近性時,模型得分接近隨機(jī)猜測,表明其缺乏對真實(shí)物理世界層級和深度的認(rèn)知。

      4. 空間交互的 “動態(tài)失真”:模型難以捕捉物體間的動態(tài)瞬間(如跳躍中的足球)或物理因果邏輯(如撞擊導(dǎo)致的破碎),無法將潛藏的物理動力學(xué)轉(zhuǎn)化為邏輯自洽的視覺圖像。



      上:當(dāng)前生成模型在感知、推理和交互上的錯誤樣例;下:當(dāng)前評估基準(zhǔn)存在信息稀疏 / 粗粒度 yes-or-no 評估

      SpatialGenEval:涉及空間基礎(chǔ)、感知、推理和交互的空間智能 “全科掃描”

      為了系統(tǒng)化地定義和評估文生圖模型 “空間智能” 能力,研究團(tuán)隊構(gòu)建了一個層次化框架,將空間智能解構(gòu)為 4 大領(lǐng)域及 10 個關(guān)鍵子維度:

      1. 空間基礎(chǔ) (S1/S2):多目標(biāo)物體類別(S1)、多目標(biāo)屬性綁定(S2)。

      2. 空間感知 (S3/S4/S5):空間位置(S3)、空間朝向(S4)與空間布局(S5)。

      3. 空間推理 (S6/S7/S8):空間大小 / 長度 / 高矮等比較(S6)、空間鄰近性(S7)與空間位置遮擋(S8)。

      4. 空間交互 (S9/S10):空間運(yùn)動交互(S9)與空間因果交互(S10)。

      該基準(zhǔn)測試覆蓋自然、室內(nèi)、戶外、人類活動及藝術(shù)設(shè)計等 25 個現(xiàn)實(shí)世界場景,為其精心構(gòu)建了 1,230 條 長文本、信息密集型提示詞。每個提示詞均深度融合了上述從基礎(chǔ)屬性、布局到高階遮擋、因果推理等 10 個空間子領(lǐng)域及對應(yīng)全維度問答。值得注意的是,每個提示詞長度約 60 詞,允許同時兼顧依賴 CLIP 編碼模型(77 tokens 限制)和保持高度信息密集。



      SpatialGenEval 評估數(shù)據(jù)構(gòu)建流程



      SpatialGenEval 所有 10 個空間維度的提示詞及其問題展示



      核心發(fā)現(xiàn):空間推理仍是主要瓶頸

      研究團(tuán)隊對 23 款前沿的開源與閉源 T2I 模型進(jìn)行了詳盡評估,揭示了以下行業(yè)現(xiàn)狀:

      • 空間推理是核心薄弱環(huán)節(jié):在涉及比較和遮擋的空間推理子任務(wù)中,多數(shù)模型的得分僅在 30% 左右,接近隨機(jī)猜測水平(20%),這表明目前的模型普遍缺乏對 3D 場景結(jié)構(gòu)和邏輯關(guān)系的理解。
      • 開源模型正快速追趕:評測顯示,最強(qiáng)的開源模型 Qwen-Image (60.6%) 表現(xiàn)已與頂級閉源模型 Seed Dream 4.0 (62.7%) 基本持平,但均僅達(dá)到及格線水平,空間智能仍有巨大提升空間。
      • 強(qiáng)大的文本編碼器至關(guān)重要:使用高性能 LLM(如 T5 或大型語言模型)作為文本編碼器的模型(如 FLUX.1),在解析復(fù)雜空間指令時顯著優(yōu)于僅依賴 CLIP 的模型。



      基于 Qwen2.5-VL-72B-Instruct 的自動化評估結(jié)果



      左:所有評估模型的錯誤類型分布;右:高優(yōu)模型的錯誤類型分布

      數(shù)據(jù)中心范式:提升模型空間智能的有效路徑

      除了評估,該研究還提出了一種基于已有生成圖像的改進(jìn)方案。團(tuán)隊通過多模態(tài)大模型(MLLM)重寫提示詞以確保圖文一致性,構(gòu)建了包含 15,400 對圖文數(shù)據(jù)的 SpatialT2I 數(shù)據(jù)集。對主流三大類模型(Diffusion-based, AR-based,Unified-based 模型)進(jìn)行監(jiān)督微調(diào)結(jié)果在空間評估指標(biāo)有顯著增益,生成的圖像在物理邏輯和空間布局上更具真實(shí)感。



      微調(diào)模型后的生成結(jié)果對比

      總結(jié)與展望

      SpatialGenEval 為 T2I 模型從 “美學(xué)生成” 邁向 “邏輯感知” 建立了一條新的評估路線,只有讓模型真正理解 “萬物各得其所 (Everything in its place)”,生成式 AI 才能在機(jī)器人輔助、室內(nèi)設(shè)計、自動駕駛仿真等對空間維度有嚴(yán)苛要求的領(lǐng)域中釋放真正的生產(chǎn)力。

      作者團(tuán)隊介紹

      阿里高德的機(jī)器學(xué)習(xí)研發(fā)部,承接公司重點(diǎn)業(yè)務(wù),包括本地生活場景中的廣告創(chuàng)意、商品理解、內(nèi)容智能創(chuàng)作和分發(fā),出行場景的 AI 智能化等,部門研究領(lǐng)域廣泛,包括但不限于以下方向:(1) 多模態(tài)大模型;(2) 圖像生成 / 編輯美化;(3) 視頻生成 / 理解;(4) Agent; (5) 時空數(shù)據(jù)挖掘;(6) 智能推薦;(7) 高性能推理等。團(tuán)隊技術(shù)氛圍好,成長空間大,擁有充足的研發(fā)資源和大量的業(yè)務(wù)應(yīng)用數(shù)據(jù),多篇論文入選 paper digest 最有影響力論文名單。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      姚晨過年回家被“連罵三天”事件,撕開了中國人的統(tǒng)一春節(jié)噩夢!

      姚晨過年回家被“連罵三天”事件,撕開了中國人的統(tǒng)一春節(jié)噩夢!

      脆皮先生
      2026-02-23 19:35:34
      中日形勢突變,上海數(shù)萬日本人何去何從?中方立場明確

      中日形勢突變,上海數(shù)萬日本人何去何從?中方立場明確

      舊時樓臺月
      2025-12-05 19:08:48
      寧愿在國外種地,也不愿意回國,培養(yǎng)出92個世界冠軍的李永波圖啥

      寧愿在國外種地,也不愿意回國,培養(yǎng)出92個世界冠軍的李永波圖啥

      閱微札記
      2026-02-22 19:15:15
      谷愛凌戴32萬手表領(lǐng)金牌,她戴的施華洛世奇千元耳飾已售罄!

      谷愛凌戴32萬手表領(lǐng)金牌,她戴的施華洛世奇千元耳飾已售罄!

      車窗起霧q
      2026-02-23 00:54:25
      國家動手集中整治“親屬崗”!山西多名領(lǐng)導(dǎo)被查~

      國家動手集中整治“親屬崗”!山西多名領(lǐng)導(dǎo)被查~

      無比
      2026-02-24 09:58:41
      確認(rèn)訪華后,特朗普宣布對華加稅!要在中國下賭注,卻迎2大噩耗

      確認(rèn)訪華后,特朗普宣布對華加稅!要在中國下賭注,卻迎2大噩耗

      娛樂督察中
      2026-02-24 20:24:35
      蘇大強(qiáng)現(xiàn)象——江蘇衛(wèi)視2026春晚一花獨(dú)放絕非正常

      蘇大強(qiáng)現(xiàn)象——江蘇衛(wèi)視2026春晚一花獨(dú)放絕非正常

      陳意小可愛
      2026-02-24 07:49:14
      中美關(guān)系巨變!鄭麗文要頂不住了?國民黨官員:賴清德下跪也沒用

      中美關(guān)系巨變!鄭麗文要頂不住了?國民黨官員:賴清德下跪也沒用

      小陸搞笑日常
      2026-02-24 14:09:21
      唐山“釣帝”安國勇去世,享年75歲,死因曝光,因曬成老抽色走紅

      唐山“釣帝”安國勇去世,享年75歲,死因曝光,因曬成老抽色走紅

      解說阿洎
      2026-02-22 00:22:54
      中央明確!退休新規(guī)實(shí)施后,公務(wù)員及事業(yè)編制,不能延遲退休嗎?

      中央明確!退休新規(guī)實(shí)施后,公務(wù)員及事業(yè)編制,不能延遲退休嗎?

      另子維愛讀史
      2026-02-08 21:13:03
      美國也沒想到,轉(zhuǎn)為中國籍僅7年,谷愛凌竟已成美國頭號勁敵

      美國也沒想到,轉(zhuǎn)為中國籍僅7年,谷愛凌竟已成美國頭號勁敵

      科學(xué)發(fā)掘
      2026-02-24 20:27:05
      馮鞏與閆學(xué)晶及中戲的隱秘關(guān)系曝光!原來閆學(xué)晶的體面,都是他給的?

      馮鞏與閆學(xué)晶及中戲的隱秘關(guān)系曝光!原來閆學(xué)晶的體面,都是他給的?

      老吳教育課堂
      2026-02-24 20:17:21
      春天,這5種蔬菜打死都不要買!菜販子坦言:我都不敢吃,很多人卻搶著買

      春天,這5種蔬菜打死都不要買!菜販子坦言:我都不敢吃,很多人卻搶著買

      阿萊美食匯
      2026-02-24 14:28:32
      22歲谷愛凌:我有個想法,但我不敢說,要做個動作成女子歷史第1

      22歲谷愛凌:我有個想法,但我不敢說,要做個動作成女子歷史第1

      風(fēng)過鄉(xiāng)
      2026-02-24 10:45:07
      一年流出視頻294部的小寶到底探過多少朵花?

      一年流出視頻294部的小寶到底探過多少朵花?

      挪威森林
      2026-01-25 17:18:42
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權(quán)先生
      2026-02-12 15:38:28
      在日華人直言:如今中國要是再和日本發(fā)生沖突,根本撐不過14年!

      在日華人直言:如今中國要是再和日本發(fā)生沖突,根本撐不過14年!

      南權(quán)先生
      2026-02-12 15:39:07
      華為通報出來了:華為老員工鄧某被逮捕,任正非果然留了一手

      華為通報出來了:華為老員工鄧某被逮捕,任正非果然留了一手

      花小貓的美食日常
      2026-02-13 15:59:20
      哪怕辟謠100次,如今依舊有球迷對NBA這5大謠言深信不疑

      哪怕辟謠100次,如今依舊有球迷對NBA這5大謠言深信不疑

      毒舌NBA
      2026-02-24 07:05:56
      連續(xù)兩周不敵前世界第一!商竣程再負(fù)梅總,中東賽季一勝難求

      連續(xù)兩周不敵前世界第一!商竣程再負(fù)梅總,中東賽季一勝難求

      全景體育V
      2026-02-24 19:33:50
      2026-02-24 21:51:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12344文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹科技發(fā)布四足機(jī)器人Unitree As2

      頭條要聞

      特朗普:是否對伊朗動武 最終決定權(quán)在我手中

      頭條要聞

      特朗普:是否對伊朗動武 最終決定權(quán)在我手中

      體育要聞

      蘇翊鳴總結(jié)米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      汪小菲官宣三胎出生:承諾會照顧好3個孩子

      財經(jīng)要聞

      縣城消費(fèi)「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

      態(tài)度原創(chuàng)

      健康
      教育
      房產(chǎn)
      時尚
      軍事航空

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      提前返程背后的真相:父母的“精明賬”,是給孩子最好的守護(hù)

      房產(chǎn)要聞

      330萬人涌入!春節(jié)全國樓市,第一個賣爆的區(qū)域出現(xiàn)了!

      50+的女性,大衣、直筒褲、皮草這么穿,冬天保暖顯瘦兩不誤

      軍事要聞

      美軍參聯(lián)會主席警告:對伊朗動武可能帶來重大風(fēng)險

      無障礙瀏覽 進(jìn)入關(guān)懷版