網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

飛捷科思發(fā)布首個(gè)全模態(tài)物理AI基礎(chǔ)模型-OmniFysics

2026-02-11 08:05:18　來(lái)源: 創(chuàng)業(yè)邦

北京舉報(bào)

分享至

近日，飛捷科思智能科技（上海）有限公司宣布完成近億元Pre-A1輪融資。本輪融資由經(jīng)緯創(chuàng)投與東方富海聯(lián)合領(lǐng)投，沐曦股份、馳星創(chuàng)投等機(jī)構(gòu)參與投資。

飛捷科思定位為Physical AI（物理AI）核心基礎(chǔ)設(shè)施供應(yīng)商，專注于自主研發(fā)面向具身智能的新一代可微分、多物理統(tǒng)一求解物理仿真引擎。該引擎適配主流及國(guó)產(chǎn)GPU，支持大規(guī)模并行仿真，旨在通過(guò)生成高質(zhì)量合成數(shù)據(jù)，解決機(jī)器人訓(xùn)練數(shù)據(jù)匱乏的行業(yè)痛點(diǎn)。

盡管現(xiàn)有頂尖多模態(tài)大語(yǔ)言模型（MLLMs）在語(yǔ)義理解與跨模態(tài)推理上已展現(xiàn)出驚人能力，但它們?cè)谖锢砀兄獙用嫒悦媾R巨大的“認(rèn)知鴻溝”。這種物理認(rèn)知的缺失，導(dǎo)致現(xiàn)有模型在生成任務(wù)中頻頻產(chǎn)生違反因果律的“物理幻覺(jué)”，在推理任務(wù)中則傾向于依賴淺層的語(yǔ)義標(biāo)簽而非內(nèi)在的物理屬性與參數(shù)，限制了其在真實(shí)物理世界中的可用性、可靠性與泛化能力。其背后的根本原因在于，關(guān)鍵的物理屬性在視覺(jué)上具有天然的模糊性，且在現(xiàn)有的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)中缺乏顯式的表征與對(duì)齊，導(dǎo)致模型難以像人類(lèi)一樣通過(guò)跨模態(tài)線索消除歧義，從而無(wú)法建立起對(duì)物理世界本質(zhì)的正確認(rèn)識(shí)。

為突破這一物理認(rèn)知瓶頸，飛捷科思智能科技（Fysics AI）推出了OmniFysics —— 一款面向真實(shí)世界的全模態(tài)物理AI基礎(chǔ)模型。OmniFysics統(tǒng)一了圖像、音頻、視頻和文本的跨模態(tài)理解，并集成了高保真的語(yǔ)音與圖像生成能力，不僅在標(biāo)準(zhǔn)多模態(tài)基準(zhǔn)上表現(xiàn)優(yōu)異，更通過(guò)注入顯式的物理知識(shí)，從根本上重塑了AI模型對(duì)物理規(guī)律的感知與預(yù)測(cè)，有效彌合了隱式神經(jīng)表示與顯式物理知識(shí)之間的鴻溝，為構(gòu)建能夠真正理解并與物理世界互動(dòng)的具身智能體奠定了堅(jiān)實(shí)基礎(chǔ)。

為了解決高質(zhì)量物理對(duì)齊數(shù)據(jù)的稀缺問(wèn)題，團(tuán)隊(duì)構(gòu)建了雙中樞數(shù)據(jù)生態(tài)系統(tǒng)：FysicsAny中樞針對(duì)靜態(tài)屬性，通過(guò)“感知-檢索-驗(yàn)證”的五階段專家協(xié)作機(jī)制，結(jié)合物理定律約束與分層知識(shí)檢索，構(gòu)建了包含 943K 驗(yàn)證物理標(biāo)簽和 4.7M 對(duì)指令-圖像的首個(gè)大規(guī)模物理屬性數(shù)據(jù)資產(chǎn)；FysicsOmniCap中樞則針對(duì)動(dòng)態(tài)過(guò)程，利用視聽(tīng)一致性過(guò)濾與“大腦-工具”協(xié)作機(jī)制，提煉出872K富含物理因果鏈的高保真指令資產(chǎn)，強(qiáng)化了模型對(duì)跨模態(tài)物理線索的捕捉能力。此外，OmniFysics 融合了高效的統(tǒng)一生成機(jī)制與智能動(dòng)態(tài)路由技術(shù)。這種創(chuàng)新設(shè)計(jì)使模型能夠根據(jù)用戶意圖自適應(yīng)調(diào)度計(jì)算資源，在保持高效推理的同時(shí)，精準(zhǔn)呈現(xiàn)符合物理定律（如正確的材質(zhì)紋理與形變）的視覺(jué)內(nèi)容。

核心中樞：

首創(chuàng)“雙輪驅(qū)動(dòng)”物理數(shù)據(jù)生態(tài)，跨越感知鴻溝

OmniFysics之所以能“看透”表象背后的物理本質(zhì)，源于其背后龐大而嚴(yán)謹(jǐn)?shù)奈锢頂?shù)據(jù)生態(tài)。針對(duì)現(xiàn)有公開(kāi)數(shù)據(jù)集“重語(yǔ)義、輕物理”的缺陷，團(tuán)隊(duì)構(gòu)建了FysicsAny 與 FysicsOmniCap 雙中樞，從靜態(tài)屬性到動(dòng)態(tài)因果，為模型注入了可驗(yàn)證的物理知識(shí)。

1.FysicsAny：靜態(tài)物理屬性映射中樞

FysicsAny是首個(gè)連接視覺(jué)實(shí)體與內(nèi)在物理參數(shù)的自動(dòng)化流水線。為了確保數(shù)據(jù)的嚴(yán)謹(jǐn)性，F(xiàn)ysicsAny 摒棄了單純依賴大模型生成的路徑，而是采用了一套包含“混合采樣-物理感知-分層檢索-定律驗(yàn)證-指令構(gòu)建”的五階段專家協(xié)作機(jī)制。團(tuán)隊(duì)構(gòu)建了包含300個(gè)標(biāo)準(zhǔn)物理原型的數(shù)據(jù)資產(chǎn)，涵蓋剛體、軟體與流體狀態(tài)，通過(guò)檢索專家將視覺(jué)對(duì)象映射到精確的物理參數(shù)空間（如密度、楊氏模量、粘度等）。尤為重要的是，該中樞在生成數(shù)據(jù)前強(qiáng)制執(zhí)行物理定律驗(yàn)證，例如通過(guò)本構(gòu)方程驗(yàn)證耦合變量的一致性，以及通過(guò)硬邊界約束剔除一切違反物理常識(shí)的“幻覺(jué)”數(shù)據(jù)。該中樞最終產(chǎn)出了 943K經(jīng)過(guò)物理定律驗(yàn)證的物理標(biāo)簽和 4.7M物理指令-圖像數(shù)據(jù)，構(gòu)成了當(dāng)前規(guī)模最大的高質(zhì)量物理屬性數(shù)據(jù)資產(chǎn)。

圖 1 FysicsAny 數(shù)據(jù)管道示意圖

2.FysicsOmniCap：動(dòng)態(tài)視聽(tīng)因果中樞

物理世界的本質(zhì)在于變化與交互，F(xiàn)ysicsOmniCap 專注于捕捉時(shí)間動(dòng)態(tài)與跨模態(tài)因果性。團(tuán)隊(duì)引入了視聽(tīng)一致性評(píng)分機(jī)制，精準(zhǔn)篩選出具有強(qiáng)因果關(guān)聯(lián)（如“敲擊聲-材質(zhì)硬度”）的動(dòng)態(tài)片段。該引擎采用強(qiáng)專家模型作為中樞大腦，調(diào)度視覺(jué)、音頻與物理感知三大專家模型協(xié)同工作。這種機(jī)制能夠合成深度物理因果鏈。例如，模型不僅能描述“一個(gè)球落地”，還能根據(jù)聲音推斷出“球體具有高剛性，落地后無(wú)塑性變形并迅速反彈”。最終，該中樞提煉出 872K 高保真指令對(duì)，使模型能夠理解隱藏在像素變化背后的物理規(guī)律。

建模范式：

緊湊型全模態(tài)統(tǒng)一架構(gòu)，實(shí)現(xiàn)高效物理對(duì)齊

OmniFysics 打破了傳統(tǒng)模型在理解與生成之間的壁壘，提出了一種全新的全模態(tài)統(tǒng)一架構(gòu)，以 3B 參數(shù)的大語(yǔ)言模型為基座，實(shí)現(xiàn)了對(duì)圖像、音頻、視頻與文本的統(tǒng)一處理與生成。

圖 2 OmniFyscis模型框架示意圖與全模態(tài)微調(diào)階段訓(xùn)練數(shù)據(jù)配比

1.全模態(tài)統(tǒng)一交互與高保真生成

模型采用了時(shí)間多模態(tài)旋轉(zhuǎn)位置編碼，能夠精確處理交錯(cuò)的視聽(tīng)流輸入。在輸出端，OmniFysics 集成了兩大生成模塊：Spoken Voxer支持從多模態(tài)上下文直接預(yù)測(cè)離散音頻token，合成高保真語(yǔ)音；同時(shí)也具備了物理感知的圖像生成能力，能夠基于對(duì)物理屬性的深刻理解，合成符合真實(shí)物理規(guī)律的高質(zhì)量元素。

2.智能動(dòng)態(tài)路由機(jī)制

為了在復(fù)雜交互中平衡推理深度與響應(yīng)速度，OmniFysics 創(chuàng)新性地融合了智能動(dòng)態(tài)路由技術(shù)。該機(jī)制充當(dāng)了模型的“意圖指揮官”，能夠?qū)崟r(shí)分析用戶指令的句法結(jié)構(gòu)與語(yǔ)義意圖。當(dāng)識(shí)別到簡(jiǎn)單的閑聊或基礎(chǔ)理解任務(wù)時(shí)，模型自動(dòng)切換至輕量級(jí)感知模式，極速響應(yīng)用戶指令；當(dāng)檢測(cè)到涉及復(fù)雜物理模擬或高精度生成的請(qǐng)求時(shí)，則智能激活高階生成模塊。這種自適應(yīng)計(jì)算策略確保了模型在保持極低延遲的同時(shí)，能夠精準(zhǔn)執(zhí)行符合物理規(guī)律的復(fù)雜意圖任務(wù)。

3.漸進(jìn)式四階段訓(xùn)練與億級(jí)全模態(tài)數(shù)據(jù)配比

OmniFysics 實(shí)施了層層遞進(jìn)的四階段訓(xùn)練策略，逐步解鎖全模態(tài)理解與生成能力。該流程始于單模態(tài)專家的獨(dú)立預(yù)訓(xùn)練，隨后進(jìn)入全模態(tài)聯(lián)合對(duì)齊階段，利用 3700萬(wàn)條精心配比的指令微調(diào)數(shù)據(jù)，將圖像、視頻、音頻與文本映射到統(tǒng)一語(yǔ)義空間，并關(guān)鍵性地融入了 FysicsAny 與 FysicsOmniCap 生成的物理增強(qiáng)數(shù)據(jù)資產(chǎn)，確保模型建立起穩(wěn)固的物理世界觀。在最后的生成能力突破階段，OmniFysics 進(jìn)一步引入了超過(guò) 1億的高質(zhì)量樣本進(jìn)行專項(xiàng)訓(xùn)練：涵蓋用于構(gòu)建高保真語(yǔ)音映射的音頻數(shù)據(jù)，以及用于圖像生成流匹配訓(xùn)練的海量圖文對(duì)。這種“理解與生成分階段、物理與語(yǔ)義相融合”的訓(xùn)練范式，確保了模型在習(xí)得通用多模態(tài)理解的同時(shí)，能夠內(nèi)化真實(shí)的物理規(guī)律。

圖 3 OmniFysics的四階段訓(xùn)練流程

FysicsEval：

首個(gè)全維度物理感知與邏輯推理基準(zhǔn)，重塑物理AI認(rèn)知邊界

為了全方位量化物理AI的認(rèn)知邊界，我們正式推出了FysicsEval——國(guó)際首個(gè)全維度物理感知與邏輯推理評(píng)測(cè)基準(zhǔn)。該評(píng)測(cè)基準(zhǔn)是一個(gè)面向多模態(tài)物理智能的全維度、多粒度評(píng)估系統(tǒng)，首次將物理感知與預(yù)測(cè)、物理邏輯推理、物理世界理解三大核心能力納入同一評(píng)估體系，為通用多模態(tài)模型建立了物理認(rèn)知能力的統(tǒng)一標(biāo)尺。

1.填補(bǔ)行業(yè)空白的綜合評(píng)估體系

現(xiàn)有評(píng)測(cè)基準(zhǔn)主要針對(duì)理論解題或定性場(chǎng)景分析，僅能評(píng)估直覺(jué)物理或物理答題能力，無(wú)法滿足下一代通用物理AI與物理現(xiàn)實(shí)交互的需求。FysicsEval 強(qiáng)調(diào)定量預(yù)測(cè)與定律推理，旨在解決現(xiàn)有評(píng)測(cè)無(wú)法滿足通用大模型與物理世界交互需求的問(wèn)題。基準(zhǔn)包含 3,854 個(gè)源自真實(shí)世界的樣本，覆蓋剛體、軟體、流體三大物理形態(tài)，以及密度、摩擦系數(shù)、楊氏模量等 11 類(lèi)關(guān)鍵物理參數(shù)。

表 1 FysicsEval與現(xiàn)有物理評(píng)測(cè)基準(zhǔn)的全方位對(duì)比

2.三大核心能力維度的深度覆蓋

FysicsEval 建立了統(tǒng)一的評(píng)估框架，涵蓋三個(gè)互補(bǔ)的能力維度：（1）物理屬性定量預(yù)測(cè)，考察模型能否從視覺(jué)線索中反推潛在物理參數(shù)；（2）可解釋性物理推理，要求模型基于守恒定律和受力分析等，生成符合因果律的推理鏈路；（3）跨模態(tài)一致性理解，評(píng)估模型對(duì)物理世界的理解以及識(shí)別違反物理常識(shí)的“幻覺(jué)”現(xiàn)象的能力。通過(guò)整合定量預(yù)測(cè)、深度推理、物理理解與幻覺(jué)識(shí)別三大核心維度，F(xiàn)ysicsEval 建立了一套嚴(yán)密的物理認(rèn)知評(píng)價(jià)體系，迫使模型走出語(yǔ)義舒適區(qū)，直面物理世界的因果鐵律。

性能驗(yàn)證：

打破 Scaling Law，小參數(shù)量下的物理智能涌現(xiàn)

通過(guò)多維度的綜合實(shí)驗(yàn)，OmniFysics 驗(yàn)證了一個(gè)重要結(jié)論：注入顯式物理知識(shí)，可以讓緊湊型模型在特定領(lǐng)域超越盲目擴(kuò)大參數(shù)規(guī)模的通用模型。

1.物理AI感知能力的大幅躍升

在專為物理智能設(shè)計(jì)的 FysicsEval 評(píng)測(cè)中，OmniFysics (3B) 展現(xiàn)出驚人的爆發(fā)力，其綜合得分不僅全面超過(guò)同量級(jí)開(kāi)源模型，更在多項(xiàng)關(guān)鍵指標(biāo)上超越了Gemini-2.5-flash和Claude-4.5-Haiku等大規(guī)模參數(shù)的閉源模型整體上取得了最好的物理邏輯推理能力。在 PhysBench、QuantiPhy 等權(quán)威第三方物理榜單上，OmniFysics 同樣保持了領(lǐng)先優(yōu)勢(shì)。這一結(jié)果有力證明了，專用物理數(shù)據(jù)中樞能夠有效彌合小參數(shù)架構(gòu)與高密度物理知識(shí)之間的差距，實(shí)現(xiàn)物理認(rèn)知的越級(jí)表現(xiàn)。

圖4 FysicsEval全維度物理智能評(píng)估結(jié)果

圖5物理AI感知能力評(píng)估結(jié)果

2.視覺(jué)多模態(tài)理解的穩(wěn)健表現(xiàn)

物理能力的增強(qiáng)并未犧牲通用的視覺(jué)感知。在 MMBench、MMStar 等六大通用視覺(jué)理解基準(zhǔn)評(píng)測(cè)中，OmniFysics 取得了 72.8% 的平均分，在所有同尺寸的Omni模型中位列第一。特別是在 MMMU 等涉及學(xué)科知識(shí)推理的任務(wù)上，OmniFysics 憑借其強(qiáng)大的物理邏輯訓(xùn)練，展現(xiàn)出了超越傳統(tǒng)視覺(jué)模型的推理魯棒性。

圖6視覺(jué)多模態(tài)理解能力評(píng)估

3.全模態(tài)與視頻理解的全面領(lǐng)跑

在OmniBench、Video-MME 等全模態(tài)與視頻理解榜單中，OmniFysics 以 49.97 的平均分位居 3B 量級(jí)模型之首，在 5 個(gè)評(píng)估基準(zhǔn)中有 4 個(gè)優(yōu)于 Qwen2.5-Omni 3B。這證明全模態(tài)數(shù)據(jù)和物理視頻感知數(shù)據(jù)的引入，能夠增強(qiáng)模型對(duì)于真實(shí)音視頻環(huán)境的適應(yīng)。

圖7全模態(tài)與視頻理解能力評(píng)估

4.音頻理解能力評(píng)估

在 MMAU 和 MMAR 音頻理解基準(zhǔn)上，OmniFysics 取得了 61.2 的平均分，這一成績(jī)不僅優(yōu)于 Qwen2.5-Omni 3B，更在部分指標(biāo)上超越了音頻專家模型。這表明 OmniFysics 的全模態(tài)架構(gòu)成功建立了對(duì)聲學(xué)信號(hào)的深度感知，并未因側(cè)重視覺(jué)物理而偏廢聽(tīng)覺(jué)能力。

圖8音頻理解能力評(píng)估

5.物理忠實(shí)的高保真圖像生成

當(dāng)前的主流文生圖模型及其評(píng)測(cè)體系主要側(cè)重于“語(yǔ)義一致性”與“藝術(shù)美感”，往往忽視了對(duì)“物理規(guī)律一致性”的考量。在定性實(shí)驗(yàn)中，OmniFysics 展現(xiàn)了獨(dú)特的“物理轉(zhuǎn)譯”能力——它能根據(jù)“密度”、“楊氏模量”等抽象參數(shù)，生成具有正確材質(zhì)光澤與形變邏輯的圖像，這是當(dāng)前文生圖模型無(wú)法企及的“物理真實(shí)”。

圖9高保真物理感知的圖像生成

作為首個(gè)注入顯式物理知識(shí)的緊湊型全模態(tài)物理大模型，OmniFysics 成功跨越了隱式神經(jīng)表示與顯式物理定律之間的認(rèn)知鴻溝。它不僅打破了全模態(tài)模型在參數(shù)規(guī)模上的固有依賴，證明了小參數(shù)量下物理智能涌現(xiàn)的可行性，更將多模態(tài)生成的范式從單純的“語(yǔ)義對(duì)齊”重塑為嚴(yán)謹(jǐn)?shù)摹拔锢碇覍?shí)”。OmniFysics 確立了具備物理規(guī)律的因果邏輯與高精度物理預(yù)測(cè)能力的物理AI 新范式，為具身智能在真實(shí)物理世界中的感知、交互與演進(jìn)奠定了堅(jiān)實(shí)的基礎(chǔ)。

數(shù)據(jù)基準(zhǔn): https://github.com/Fysics-AI/FysicsEval

Hugging Face鏈接: https://huggingface.co/datasets/Fysics-AI/FysicsEval

飛捷科思智能科技（上海）有限公司由復(fù)旦大學(xué)智能機(jī)器人與先進(jìn)制造創(chuàng)新學(xué)院副院長(zhǎng)、智能機(jī)器人研究院常務(wù)副院長(zhǎng)，原英偉達(dá)PhysX物理引擎主要奠基人與研發(fā)團(tuán)隊(duì)負(fù)責(zé)人張立華教授創(chuàng)辦，是國(guó)內(nèi)唯一擁有完全自主研發(fā)的可微分通用物理仿真引擎產(chǎn)品的企業(yè)。公司以新一代物理仿真引擎 Fysics為核心，致力于打造全球領(lǐng)先的物理智能關(guān)鍵技術(shù)與產(chǎn)品，推動(dòng)具身智能與人形機(jī)器人技術(shù)研發(fā)及應(yīng)用場(chǎng)景的快速落地，在高精度物理仿真引擎、高質(zhì)量具身智能仿真平臺(tái)、機(jī)器人敏捷運(yùn)動(dòng)與魯棒智能控制等領(lǐng)域處于行業(yè)領(lǐng)先水平，并向行業(yè)提供覆蓋“仿真—訓(xùn)練—部署—迭代”的全棧解決方案。依托自主可控的物理智能底座，公司持續(xù)賦能中國(guó)具身智能與機(jī)器人產(chǎn)業(yè)的發(fā)展。

打開(kāi)鏈接：https://arxiv.org/pdf/2602.07064，下載技術(shù)報(bào)告

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.