網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

FysicsWorld：填補(bǔ)全模態(tài)交互與物理感知評(píng)測(cè)的空白

2025-12-29 14:38:56　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

近年來，多模態(tài)大語言模型正在經(jīng)歷一場(chǎng)快速的范式轉(zhuǎn)變，新興研究聚焦于構(gòu)建能夠聯(lián)合處理和生成跨語言、視覺、音頻以及其他潛在感官模態(tài)信息的統(tǒng)一全模態(tài)大模型。此類模型的目標(biāo)不僅是感知全模態(tài)內(nèi)容，還要將視覺理解和生成整合到統(tǒng)一架構(gòu)中，從而實(shí)現(xiàn)模態(tài)間的協(xié)同交互。

這種轉(zhuǎn)變的驅(qū)動(dòng)力源于真實(shí)物理世界的復(fù)雜性，自從文明誕生以來，人類通過對(duì)反映現(xiàn)實(shí)世界本質(zhì)的視覺線索、聽覺信號(hào)、空間動(dòng)態(tài)等復(fù)雜多模態(tài)信息的不斷觀察、分析和推理來實(shí)現(xiàn)對(duì)真實(shí)物理世界的正確認(rèn)識(shí)和理解。

因此，一個(gè)面向真實(shí)物理世界的先進(jìn)的全模態(tài)智能架構(gòu)，不僅需要對(duì)真實(shí)世界中的多模態(tài)交互做出正確響應(yīng)，還應(yīng)具備遵循物理世界規(guī)律的感知與推理能力，以實(shí)現(xiàn)對(duì)復(fù)雜現(xiàn)實(shí)環(huán)境的可靠理解。

盡管當(dāng)前的多模態(tài)與全模態(tài)大模型不斷突破，但評(píng)測(cè)體系卻始終難以跟上模型能力的擴(kuò)張——模態(tài)覆蓋不完整、模態(tài)之間缺乏真實(shí)物理世界關(guān)聯(lián)、各種多模態(tài)任務(wù)長(zhǎng)期局限于文本輸出下的評(píng)測(cè)，難以反映模型在真實(shí)環(huán)境中的全模態(tài)耦合與人機(jī)交互的能力。這讓研究者無法全面評(píng)估模型在面對(duì)復(fù)雜物理世界場(chǎng)景時(shí)的實(shí)際能力，也無法進(jìn)行公平、統(tǒng)一的跨模態(tài)比較。

為解決這一發(fā)展瓶頸，飛捷科思智能科技（上海）有限公司（Fysics AI）和復(fù)旦大學(xué)認(rèn)知與智能技術(shù)實(shí)驗(yàn)室（CITLab）研究團(tuán)隊(duì)共同正式推出了全球首個(gè)面向真實(shí)物理世界的統(tǒng)一全模態(tài)評(píng)測(cè)基準(zhǔn)——FysicsWorld（中文名稱：物理世界）

該基準(zhǔn)不僅能夠評(píng)測(cè)模型在圖像、視頻、音頻與文本間進(jìn)行雙向輸入與輸出的能力，還覆蓋了模型對(duì)真實(shí)物理世界場(chǎng)景的感知、理解、生成以及跨模態(tài)推理等核心能力。

圖 1：FysicsWorld 全模態(tài)智能評(píng)測(cè)體系示意圖

FysicsWorld 包括具備高質(zhì)量樣本的 16 大任務(wù)，涉及上百類真實(shí)開放域場(chǎng)景，并精心設(shè)計(jì)了跨模態(tài)信息之間的依賴關(guān)系與互補(bǔ)性，從而全面呈現(xiàn)物理世界多模態(tài)信息的復(fù)雜性。

論文標(biāo)題：FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
技術(shù)報(bào)告鏈接：https://arxiv.org/pdf/2512.12756
GitHub 項(xiàng)目主頁(yè)鏈接：https://github.com/Fysics-AI/FysicsWorld
數(shù)據(jù)集鏈接
https://huggingface.co/datasets/Fysics-AI/FysicsWorld
https://hf-mirror.com/datasets/Fysics-AI/FysicsWorld
模型排行榜鏈接：https://huggingface.co/spaces/Fysics-AI/FysicsWorld-LeaderBoard

此外，F(xiàn)ysicsWorld 創(chuàng)新地提出了跨模態(tài)互補(bǔ)性篩選策略（Cross-Modal Complementarity Screening, CMCS），其通過嚴(yán)格的模態(tài)依賴性驗(yàn)證機(jī)制，確?；鶞?zhǔn)中的每個(gè)樣本在求解時(shí)均必須依賴多種模態(tài)的信息融合，從而有效避免「單模態(tài)捷徑」帶來的偏差。因此，CMCS 能夠更可靠地評(píng)估模型在真實(shí)物理世界場(chǎng)景下的多模態(tài)綜合智能水平。

通過大量實(shí)驗(yàn)證明，F(xiàn)ysicsWorld 不僅能夠清晰揭示當(dāng)前全模態(tài)模型架構(gòu)在融合多模態(tài)理解推理、基于語音驅(qū)動(dòng)的人機(jī)交互、跨模態(tài)生成及物理現(xiàn)實(shí)世界場(chǎng)景感知等環(huán)節(jié)的真實(shí)短板，也為未來面向物理環(huán)境的全模態(tài)架構(gòu)研發(fā)提供了診斷工具與方向指引。隨著 FysicsWorld 的推出和應(yīng)用，下一代人工智能正在從簡(jiǎn)單的「多模態(tài)拼接」邁向真正的全模態(tài)統(tǒng)一智能，在面向真實(shí)世界的理解和交互方面邁出關(guān)鍵一步。

深度挖掘：從「多模態(tài)拼接」到

面向真實(shí)物理世界的「全模態(tài)智能」的深度需求

隨著多模態(tài)模型從最初的「視覺 + 語言」，逐步走向「視覺 + 音頻 + 語言」，再到如今面向真實(shí)物理世界的全模態(tài)統(tǒng)一架構(gòu)，人們對(duì)大模型的期待已遠(yuǎn)超「看得懂、聽得懂」。

研究者希望它們能夠在真實(shí)環(huán)境中準(zhǔn)確理解現(xiàn)實(shí)物理世界中的復(fù)雜場(chǎng)景、整合來自不同感官的信號(hào)、進(jìn)行跨模態(tài)推理，并以更加自然、符合物理世界規(guī)律的方式與人類交互，為未來具身智能時(shí)代的發(fā)展奠定基礎(chǔ)。然而，現(xiàn)有評(píng)測(cè)體系遠(yuǎn)遠(yuǎn)無法反映模型在真實(shí)物理場(chǎng)景下的能力：

模態(tài)覆蓋不全：多數(shù)跨模態(tài)基準(zhǔn)仍局限于文本為中心的有限模態(tài)中，鮮有工作能夠徹底涵蓋文本 - 圖像 - 視頻 - 音頻為代表的物理世界全模態(tài)信息，無法真正評(píng)測(cè)新一代模型在更為復(fù)雜的真實(shí)世界場(chǎng)景中的全模態(tài)信息融合理解能力。
輸出形式單一：現(xiàn)有的跨模態(tài)評(píng)測(cè)基準(zhǔn)大多數(shù)僅考察文本輸出，幾乎不涉及多模態(tài)生成，也缺乏語音驅(qū)動(dòng)的多模態(tài)交互等面向真實(shí)世界以人為主體的任務(wù)，難以推動(dòng)未來以語音驅(qū)動(dòng)為基礎(chǔ)的跨模態(tài)人機(jī)交互的發(fā)展。
模態(tài)關(guān)聯(lián)不強(qiáng)：現(xiàn)有的多數(shù)跨模態(tài)數(shù)據(jù)集僅僅將多個(gè)不同模態(tài)信息（例如圖像、視頻、音頻）簡(jiǎn)單拼接，進(jìn)行排列組合，卻忽略了不同模態(tài)信息之間的關(guān)聯(lián)性及耦合性，導(dǎo)致跨模態(tài)數(shù)據(jù)的信息密度較低，不要求模型融合真實(shí)物理場(chǎng)景中不同模態(tài)的線索進(jìn)行真正的跨模態(tài)理解和推理，這阻礙了對(duì)新一代全模態(tài)模型的能力探索和深度挖掘。

圖 2：全模態(tài)智能評(píng)測(cè)體系對(duì)比圖

在模型能力快速發(fā)展、應(yīng)用場(chǎng)景愈發(fā)貼近真實(shí)物理世界的今天，一個(gè)能夠真正覆蓋任意模態(tài)輸入輸出，挖掘以人為主體的語音驅(qū)動(dòng)多模態(tài)人機(jī)交互能力，并能夠反映模型在物理真實(shí)場(chǎng)景下跨模態(tài)智能水平的統(tǒng)一評(píng)測(cè)基準(zhǔn)體系，已經(jīng)成為推動(dòng)全模態(tài)智能向前邁進(jìn)的迫切需求。

核心突破：FysicsWorld

首次打通「全模態(tài)全鏈路」的統(tǒng)一任務(wù)體系

全模態(tài)評(píng)測(cè)任務(wù)體系：從基礎(chǔ)感知到高階交互的系統(tǒng)覆蓋

FysicsWorld 構(gòu)建了一套兼顧廣度與深度的任務(wù)體系，將 16 項(xiàng)多模態(tài)任務(wù)系統(tǒng)化地組織為一條從基礎(chǔ)感知延伸至面向真實(shí)物理世界的高階交互的能力曲線。

在基礎(chǔ)多模態(tài)能力層面，F(xiàn)ysicsWorld 全面檢驗(yàn)?zāi)Ｐ驮趫D像理解、視頻理解、音頻推理，以及視覺生成等核心任務(wù)上的表現(xiàn)，確保視覺與聽覺能力在細(xì)粒度層面得到充分驗(yàn)證。

在高階跨模態(tài)交互層面，F(xiàn)ysicsWorld 進(jìn)一步將評(píng)測(cè)推向真實(shí)應(yīng)用場(chǎng)景下的跨模態(tài)交互任務(wù)，構(gòu)建了細(xì)粒度的能力挖掘與評(píng)價(jià)體系，通過語音驅(qū)動(dòng)的視覺理解與人機(jī)交互、基于視覺信息的音頻合成、跨模態(tài)綜合邏輯推斷、以及基于動(dòng)作序列和當(dāng)前狀態(tài)的后續(xù)行為預(yù)測(cè)等任務(wù)，共同構(gòu)成對(duì)模型在真實(shí)物理世界中多源信號(hào)融合、語義一致性、復(fù)雜推理與動(dòng)態(tài)環(huán)境適應(yīng)能力的嚴(yán)格考查。這些設(shè)計(jì)不僅關(guān)注信息處理本身，更強(qiáng)調(diào)模型在真實(shí)環(huán)境中進(jìn)行整體決策和協(xié)同感知的能力。

憑借這一結(jié)構(gòu)完整、層級(jí)清晰的任務(wù)體系，F(xiàn)ysicsWorld 首次實(shí)現(xiàn)了對(duì)全模態(tài)模型從單模態(tài)到多模態(tài)、從靜態(tài)到動(dòng)態(tài)、從時(shí)序到空間、從感知到生成與推理的連續(xù)覆蓋，并充分貼合真實(shí)物理世界的環(huán)境復(fù)雜性，為下一代面向物理場(chǎng)景的全模態(tài)智能提供了真正意義上的統(tǒng)一評(píng)測(cè)框架。

圖 3：FysicsWorld 評(píng)測(cè)體系分類圖

圖 4：FysicsWorld 系統(tǒng)性評(píng)測(cè)體系示意圖

跨模態(tài)數(shù)據(jù)的融合與高質(zhì)量構(gòu)建：新穎的跨模態(tài)數(shù)據(jù)構(gòu)造流程

FysicsWorld 在數(shù)據(jù)構(gòu)建階段采用了嚴(yán)謹(jǐn)?shù)亩嘣慈诤狭鞒獭Ｑ芯繄F(tuán)隊(duì)從異構(gòu)高質(zhì)量數(shù)據(jù)集中篩選多模態(tài)樣本，并通過人工審校與半自動(dòng)化輔助校對(duì)的雙重機(jī)制，對(duì)語義一致性、表達(dá)自然度和場(chǎng)景匹配性進(jìn)行嚴(yán)格篩查，逐步排除不符合標(biāo)準(zhǔn)的內(nèi)容，確保問答和指令在邏輯與語義上保持高準(zhǔn)確度。

在語音驅(qū)動(dòng)的人機(jī)交互相關(guān)任務(wù)中，F(xiàn)ysicsWorld 進(jìn)一步構(gòu)建了閉環(huán)數(shù)據(jù)構(gòu)造與驗(yàn)證流程：先由對(duì)文本進(jìn)行自動(dòng)化重寫與口語化表述增強(qiáng)，再通過多樣的語音合成技術(shù)，基于 10 余種不同的真人語音音色，構(gòu)造真實(shí)自然且高度擬人化的語音交互數(shù)據(jù)，隨后通過語音識(shí)別反向驗(yàn)證語義一致性，以保證合成的語音內(nèi)容表達(dá)自然、含義明確，并與文本嚴(yán)格對(duì)齊。

依托這一精細(xì)化、多階段的構(gòu)建模式，F(xiàn)ysicsWorld 構(gòu)建了更加真實(shí)與自然的高質(zhì)量語音驅(qū)動(dòng)人機(jī)交互任務(wù)，在大規(guī)模覆蓋與數(shù)據(jù)純度之間取得了良好平衡，為全模態(tài)任務(wù)體系提供了可靠且高質(zhì)量的基礎(chǔ)數(shù)據(jù)支撐。

跨模態(tài)互補(bǔ)性篩選策略：打破模態(tài)孤島，確?？缒B(tài)間的信息依賴

在多模態(tài)評(píng)測(cè)中，一個(gè)經(jīng)常被忽視的風(fēng)險(xiǎn)在于，許多任務(wù)實(shí)際上并不真正依賴多模態(tài)信息即可被輕松解決，這使得評(píng)測(cè)結(jié)果難以有效反映模型真實(shí)的多模態(tài)融合能力。為解決這一長(zhǎng)期存在的問題，F(xiàn)ysicsWorld 創(chuàng)新地引入了跨模態(tài)互補(bǔ)性篩選策略（Cross-Modal Complementarity Screening, CMCS），從數(shù)據(jù)構(gòu)造層面確?？缒B(tài)任務(wù)具備明確的模態(tài)信息耦合與依賴。

跨模態(tài)互補(bǔ)性篩選策略的核心機(jī)制簡(jiǎn)單而有效，對(duì)于待篩選的跨模態(tài)樣本，該策略隨機(jī)移除一個(gè)或多個(gè)模態(tài)，并觀察評(píng)測(cè)模型的性能變化。若模型在模態(tài)消融后仍能保持較高的任務(wù)表現(xiàn)，則該樣本被視為跨模態(tài)依賴不足或信息冗余，因而從 FysicsWorld 中剔除。這類樣本容易使模型依賴單一模態(tài)的捷徑作答，無法有效檢驗(yàn)真實(shí)的多模態(tài)融合能力。

反之，經(jīng)過任意模態(tài)消融后模型都無法順利解決的數(shù)據(jù)樣本才會(huì)被 FysicsWorld 保留，這些數(shù)據(jù)能夠體現(xiàn)各模態(tài)之間顯著的信息互補(bǔ)性和耦合性，必須整合視覺、聽覺和語言線索的互補(bǔ)證據(jù)才能解決這類問題。

圖 5：FysicsWorld 跨模態(tài)數(shù)據(jù)構(gòu)造示意圖

得益于跨模態(tài)互補(bǔ)性篩選策略，最終的數(shù)據(jù)集具備強(qiáng)模態(tài)互補(bǔ)性，使 FysicsWorld 能夠更準(zhǔn)確地檢驗(yàn)?zāi)Ｐ偷恼鎸?shí)多模態(tài)融合水平，成為當(dāng)前評(píng)估全模態(tài)能力最具參考價(jià)值的基準(zhǔn)之一。

多維度論證：

全模態(tài)模型的真實(shí)能力圖譜

基于 FysicsWorld，研究團(tuán)隊(duì)圍繞國(guó)際上 30 余個(gè)最先進(jìn)的 AI 模型進(jìn)行了系統(tǒng)性的評(píng)測(cè)，涵蓋全模態(tài)大模型、多模態(tài)大模型、特定模態(tài)的專用模型以及統(tǒng)一理解與生成式模型。

基礎(chǔ)多模態(tài)能力分層清晰，基石仍待打牢

在圖像、視頻和音頻理解的基礎(chǔ)多模態(tài)任務(wù)中，實(shí)驗(yàn)結(jié)果呈現(xiàn)出明顯分層。GPT-5 與 Gemini-2.5-Pro 等閉源模型整體領(lǐng)先，表現(xiàn)穩(wěn)定可靠。開源全模態(tài)模型雖在部分任務(wù)上逐漸縮小差距，但在長(zhǎng)視頻語義鏈路、復(fù)雜聽覺理解以及高難度推理中仍顯薄弱。統(tǒng)一結(jié)構(gòu)的理解 - 生成模型在圖像和視頻生成上展現(xiàn)一定競(jìng)爭(zhēng)力，但在細(xì)粒度文本約束、語義一致性及結(jié)構(gòu)控制能力上仍落后于專門的擴(kuò)散式或視頻生成模型。

這些結(jié)果揭示了當(dāng)前模型在基礎(chǔ)感知與生成能力上的主要瓶頸，同時(shí)為跨模態(tài)任務(wù)提供了重要的性能基線。

圖 6：音頻推理和視頻生成任務(wù)中不同模型性能對(duì)比示意圖

跨模態(tài)推理與交互：真實(shí)世界融合能力仍處早期

當(dāng)任務(wù)從單模態(tài)切換到真實(shí)物理場(chǎng)景下的多模態(tài)協(xié)作時(shí)，模型性能普遍出現(xiàn)明顯下滑，退化幅度遠(yuǎn)超預(yù)期——尤其是在那些必須依賴圖像、視頻、音頻之間真實(shí)互補(bǔ)關(guān)系才能作答的任務(wù)中，短板暴露無遺。

無論是通過語音驅(qū)動(dòng)的視覺理解與人機(jī)交互、基于視覺信息的音頻合成、跨模態(tài)綜合邏輯推斷以及基于動(dòng)作序列和當(dāng)前狀態(tài)的后續(xù)行為預(yù)測(cè)等任務(wù)，都要求模型具備深層次的跨模態(tài)交互、真實(shí)物理世界常識(shí)理解與時(shí)空推理能力，嚴(yán)格考查了模型在真實(shí)物理世界中多源信號(hào)融合、語義一致性、復(fù)雜推理與動(dòng)態(tài)環(huán)境適應(yīng)能力。然而實(shí)測(cè)表明，主流模型在面向真實(shí)世界的多模態(tài)對(duì)齊、信息融合、跨模態(tài)生成以及物理場(chǎng)景適應(yīng)能力等關(guān)鍵環(huán)節(jié)，仍存在顯著不足。

這些結(jié)果清晰指出，盡管多模態(tài)模型在基礎(chǔ)認(rèn)知上已有顯著進(jìn)展，但要實(shí)現(xiàn)面向真實(shí)物理世界的全模態(tài)智能，還需要在跨模態(tài)融合、動(dòng)態(tài)環(huán)境理解、物理約束推理與多源感知協(xié)同等方向進(jìn)一步突破。

圖 7：全模態(tài) / 視覺語言大模型在圖像為中心任務(wù)上的性能對(duì)比

圖 8：全模態(tài) / 視覺語言大模型在視頻為中心任務(wù)上的性能對(duì)比

洞察與趨勢(shì)：面向真實(shí)物理世界的

全模態(tài)智能仍有廣闊空間

現(xiàn)有全模態(tài)模型和多模態(tài)大模型在多源感知和基礎(chǔ)生成上雖已初見成效，但在面對(duì)復(fù)雜物理場(chǎng)景、多源信息交互以及長(zhǎng)時(shí)序動(dòng)態(tài)環(huán)境時(shí)，仍難以實(shí)現(xiàn)穩(wěn)定、深度的跨模態(tài)融合與統(tǒng)一推理。

這意味著，面向真實(shí)物理世界的全模態(tài)智能的下一階段，不僅需要繼續(xù)鞏固單模態(tài)能力的根基，提升視覺、聽覺、語言等單模態(tài)處理在真實(shí)場(chǎng)景中的精度與一致性，更需要在模態(tài)融合策略上進(jìn)行系統(tǒng)性優(yōu)化，實(shí)現(xiàn)多模態(tài)信息在時(shí)空、語義及物理約束維度的協(xié)調(diào)與整合。

跨模態(tài)動(dòng)態(tài)推理、場(chǎng)景化理解與生成能力，將成為衡量下一代全模態(tài)模型核心競(jìng)爭(zhēng)力的關(guān)鍵指標(biāo)。模型不僅需要在復(fù)雜物理環(huán)境中整合圖像、視頻、音頻與文本信息，還要能夠在長(zhǎng)時(shí)序、多事件交互、受物理環(huán)境約束的情況下保持邏輯一致性、語義連貫性與生成穩(wěn)定性。這對(duì)模型的結(jié)構(gòu)設(shè)計(jì)、推理機(jī)制以及數(shù)據(jù)構(gòu)建提出了更高要求，也為研究者和工程團(tuán)隊(duì)提供了明確的發(fā)展方向。

作為首個(gè)支持全模態(tài)輸入輸出、覆蓋感知 - 理解 - 推理 - 生成、并具備強(qiáng)跨模態(tài)依賴性的統(tǒng)一評(píng)測(cè)基準(zhǔn)，F(xiàn)ysicsWorld 為面向真實(shí)物理世界的全模態(tài)智能提供了可控、系統(tǒng)且可比較的能力映射工具，使研究者能夠清晰洞察模型在多模態(tài)感知、物理場(chǎng)景信息融合和跨模態(tài)推理生成上的真實(shí)水平，為推動(dòng)全模態(tài)智能在真實(shí)世界中實(shí)現(xiàn)穩(wěn)定、深度的跨模態(tài)融合與統(tǒng)一推理提供了堅(jiān)實(shí)支撐。

飛捷科思智能科技（上海）有限公司由復(fù)旦大學(xué)智能機(jī)器人與先進(jìn)制造創(chuàng)新學(xué)院副院長(zhǎng)、智能機(jī)器人研究院常務(wù)副院長(zhǎng)，原英偉達(dá) PhysX 物理引擎主要奠基人與研發(fā)團(tuán)隊(duì)負(fù)責(zé)人張立華教授創(chuàng)辦，是國(guó)內(nèi)唯一擁有完全自主研發(fā)的可微分通用物理仿真引擎產(chǎn)品的企業(yè)。

公司以新一代物理仿真引擎 Fysics 為核心，致力于打造全球領(lǐng)先的物理智能關(guān)鍵技術(shù)與產(chǎn)品，推動(dòng)具身智能與人形機(jī)器人技術(shù)研發(fā)及應(yīng)用場(chǎng)景的快速落地，在高精度物理仿真引擎、高質(zhì)量具身智能仿真平臺(tái)、機(jī)器人敏捷運(yùn)動(dòng)與魯棒智能控制等領(lǐng)域處于行業(yè)領(lǐng)先水平，并向行業(yè)提供覆蓋「仿真—訓(xùn)練—部署—迭代」的全棧解決方案。依托自主可控的物理智能底座，公司持續(xù)賦能中國(guó)具身智能與機(jī)器人產(chǎn)業(yè)的發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.