![]()
近日,飛捷科思智能科技(上海)有限公司宣布完成近億元Pre-A1輪融資。本輪融資由經(jīng)緯創(chuàng)投與東方富海聯(lián)合領(lǐng)投,沐曦股份、馳星創(chuàng)投等機(jī)構(gòu)參與投資。
飛捷科思定位為Physical AI(物理AI)核心基礎(chǔ)設(shè)施供應(yīng)商,專注于自主研發(fā)面向具身智能的新一代可微分、多物理統(tǒng)一求解物理仿真引擎。該引擎適配主流及國(guó)產(chǎn)GPU,支持大規(guī)模并行仿真,旨在通過(guò)生成高質(zhì)量合成數(shù)據(jù),解決機(jī)器人訓(xùn)練數(shù)據(jù)匱乏的行業(yè)痛點(diǎn)。
盡管現(xiàn)有頂尖多模態(tài)大語(yǔ)言模型(MLLMs)在語(yǔ)義理解與跨模態(tài)推理上已展現(xiàn)出驚人能力,但它們?cè)谖锢砀兄獙用嫒悦媾R巨大的“認(rèn)知鴻溝”。這種物理認(rèn)知的缺失,導(dǎo)致現(xiàn)有模型在生成任務(wù)中頻頻產(chǎn)生違反因果律的“物理幻覺(jué)”,在推理任務(wù)中則傾向于依賴淺層的語(yǔ)義標(biāo)簽而非內(nèi)在的物理屬性與參數(shù),限制了其在真實(shí)物理世界中的可用性、可靠性與泛化能力。其背后的根本原因在于,關(guān)鍵的物理屬性在視覺(jué)上具有天然的模糊性,且在現(xiàn)有的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)中缺乏顯式的表征與對(duì)齊,導(dǎo)致模型難以像人類(lèi)一樣通過(guò)跨模態(tài)線索消除歧義,從而無(wú)法建立起對(duì)物理世界本質(zhì)的正確認(rèn)識(shí)。
為突破這一物理認(rèn)知瓶頸,飛捷科思智能科技(Fysics AI)推出了OmniFysics —— 一款面向真實(shí)世界的全模態(tài)物理AI基礎(chǔ)模型。OmniFysics統(tǒng)一了圖像、音頻、視頻和文本的跨模態(tài)理解,并集成了高保真的語(yǔ)音與圖像生成能力,不僅在標(biāo)準(zhǔn)多模態(tài)基準(zhǔn)上表現(xiàn)優(yōu)異,更通過(guò)注入顯式的物理知識(shí),從根本上重塑了AI模型對(duì)物理規(guī)律的感知與預(yù)測(cè),有效彌合了隱式神經(jīng)表示與顯式物理知識(shí)之間的鴻溝,為構(gòu)建能夠真正理解并與物理世界互動(dòng)的具身智能體奠定了堅(jiān)實(shí)基礎(chǔ)。
為了解決高質(zhì)量物理對(duì)齊數(shù)據(jù)的稀缺問(wèn)題,團(tuán)隊(duì)構(gòu)建了雙中樞數(shù)據(jù)生態(tài)系統(tǒng):FysicsAny中樞針對(duì)靜態(tài)屬性,通過(guò)“感知-檢索-驗(yàn)證”的五階段專家協(xié)作機(jī)制,結(jié)合物理定律約束與分層知識(shí)檢索,構(gòu)建了包含 943K 驗(yàn)證物理標(biāo)簽和 4.7M 對(duì)指令-圖像的首個(gè)大規(guī)模物理屬性數(shù)據(jù)資產(chǎn);FysicsOmniCap中樞則針對(duì)動(dòng)態(tài)過(guò)程,利用視聽(tīng)一致性過(guò)濾與“大腦-工具”協(xié)作機(jī)制,提煉出872K富含物理因果鏈的高保真指令資產(chǎn),強(qiáng)化了模型對(duì)跨模態(tài)物理線索的捕捉能力。此外,OmniFysics 融合了高效的統(tǒng)一生成機(jī)制與智能動(dòng)態(tài)路由技術(shù)。這種創(chuàng)新設(shè)計(jì)使模型能夠根據(jù)用戶意圖自適應(yīng)調(diào)度計(jì)算資源,在保持高效推理的同時(shí),精準(zhǔn)呈現(xiàn)符合物理定律(如正確的材質(zhì)紋理與形變)的視覺(jué)內(nèi)容。
![]()
核心中樞:
首創(chuàng)“雙輪驅(qū)動(dòng)”物理數(shù)據(jù)生態(tài),跨越感知鴻溝
OmniFysics之所以能“看透”表象背后的物理本質(zhì),源于其背后龐大而嚴(yán)謹(jǐn)?shù)奈锢頂?shù)據(jù)生態(tài)。針對(duì)現(xiàn)有公開(kāi)數(shù)據(jù)集“重語(yǔ)義、輕物理”的缺陷,團(tuán)隊(duì)構(gòu)建了FysicsAny 與 FysicsOmniCap 雙中樞,從靜態(tài)屬性到動(dòng)態(tài)因果,為模型注入了可驗(yàn)證的物理知識(shí)。
1.FysicsAny:靜態(tài)物理屬性映射中樞
FysicsAny是首個(gè)連接視覺(jué)實(shí)體與內(nèi)在物理參數(shù)的自動(dòng)化流水線。為了確保數(shù)據(jù)的嚴(yán)謹(jǐn)性,F(xiàn)ysicsAny 摒棄了單純依賴大模型生成的路徑,而是采用了一套包含“混合采樣-物理感知-分層檢索-定律驗(yàn)證-指令構(gòu)建”的五階段專家協(xié)作機(jī)制。團(tuán)隊(duì)構(gòu)建了包含300個(gè)標(biāo)準(zhǔn)物理原型的數(shù)據(jù)資產(chǎn),涵蓋剛體、軟體與流體狀態(tài),通過(guò)檢索專家將視覺(jué)對(duì)象映射到精確的物理參數(shù)空間(如密度、楊氏模量、粘度等)。尤為重要的是,該中樞在生成數(shù)據(jù)前強(qiáng)制執(zhí)行物理定律驗(yàn)證,例如通過(guò)本構(gòu)方程驗(yàn)證耦合變量的一致性,以及通過(guò)硬邊界約束剔除一切違反物理常識(shí)的“幻覺(jué)”數(shù)據(jù)。該中樞最終產(chǎn)出了 943K經(jīng)過(guò)物理定律驗(yàn)證的物理標(biāo)簽和 4.7M物理指令-圖像數(shù)據(jù),構(gòu)成了當(dāng)前規(guī)模最大的高質(zhì)量物理屬性數(shù)據(jù)資產(chǎn)。
![]()
圖 1 FysicsAny 數(shù)據(jù)管道示意圖
2.FysicsOmniCap:動(dòng)態(tài)視聽(tīng)因果中樞
物理世界的本質(zhì)在于變化與交互,F(xiàn)ysicsOmniCap 專注于捕捉時(shí)間動(dòng)態(tài)與跨模態(tài)因果性。團(tuán)隊(duì)引入了視聽(tīng)一致性評(píng)分機(jī)制,精準(zhǔn)篩選出具有強(qiáng)因果關(guān)聯(lián)(如“敲擊聲-材質(zhì)硬度”)的動(dòng)態(tài)片段。該引擎采用強(qiáng)專家模型作為中樞大腦,調(diào)度視覺(jué)、音頻與物理感知三大專家模型協(xié)同工作。這種機(jī)制能夠合成深度物理因果鏈。例如,模型不僅能描述“一個(gè)球落地”,還能根據(jù)聲音推斷出“球體具有高剛性,落地后無(wú)塑性變形并迅速反彈”。最終,該中樞提煉出 872K 高保真指令對(duì),使模型能夠理解隱藏在像素變化背后的物理規(guī)律。
![]()
建模范式:
緊湊型全模態(tài)統(tǒng)一架構(gòu),實(shí)現(xiàn)高效物理對(duì)齊
OmniFysics 打破了傳統(tǒng)模型在理解與生成之間的壁壘,提出了一種全新的全模態(tài)統(tǒng)一架構(gòu),以 3B 參數(shù)的大語(yǔ)言模型為基座,實(shí)現(xiàn)了對(duì)圖像、音頻、視頻與文本的統(tǒng)一處理與生成。
![]()
圖 2 OmniFyscis模型框架示意圖與全模態(tài)微調(diào)階段訓(xùn)練數(shù)據(jù)配比
1.全模態(tài)統(tǒng)一交互與高保真生成
模型采用了時(shí)間多模態(tài)旋轉(zhuǎn)位置編碼,能夠精確處理交錯(cuò)的視聽(tīng)流輸入。在輸出端,OmniFysics 集成了兩大生成模塊:Spoken Voxer支持從多模態(tài)上下文直接預(yù)測(cè)離散音頻token,合成高保真語(yǔ)音;同時(shí)也具備了物理感知的圖像生成能力,能夠基于對(duì)物理屬性的深刻理解,合成符合真實(shí)物理規(guī)律的高質(zhì)量元素。
2.智能動(dòng)態(tài)路由機(jī)制
為了在復(fù)雜交互中平衡推理深度與響應(yīng)速度,OmniFysics 創(chuàng)新性地融合了智能動(dòng)態(tài)路由技術(shù)。該機(jī)制充當(dāng)了模型的“意圖指揮官”,能夠?qū)崟r(shí)分析用戶指令的句法結(jié)構(gòu)與語(yǔ)義意圖。當(dāng)識(shí)別到簡(jiǎn)單的閑聊或基礎(chǔ)理解任務(wù)時(shí),模型自動(dòng)切換至輕量級(jí)感知模式,極速響應(yīng)用戶指令;當(dāng)檢測(cè)到涉及復(fù)雜物理模擬或高精度生成的請(qǐng)求時(shí),則智能激活高階生成模塊。這種自適應(yīng)計(jì)算策略確保了模型在保持極低延遲的同時(shí),能夠精準(zhǔn)執(zhí)行符合物理規(guī)律的復(fù)雜意圖任務(wù)。
3.漸進(jìn)式四階段訓(xùn)練與億級(jí)全模態(tài)數(shù)據(jù)配比
OmniFysics 實(shí)施了層層遞進(jìn)的四階段訓(xùn)練策略,逐步解鎖全模態(tài)理解與生成能力。該流程始于單模態(tài)專家的獨(dú)立預(yù)訓(xùn)練,隨后進(jìn)入全模態(tài)聯(lián)合對(duì)齊階段,利用 3700萬(wàn)條精心配比的指令微調(diào)數(shù)據(jù),將圖像、視頻、音頻與文本映射到統(tǒng)一語(yǔ)義空間,并關(guān)鍵性地融入了 FysicsAny 與 FysicsOmniCap 生成的物理增強(qiáng)數(shù)據(jù)資產(chǎn),確保模型建立起穩(wěn)固的物理世界觀。在最后的生成能力突破階段,OmniFysics 進(jìn)一步引入了超過(guò) 1億的高質(zhì)量樣本進(jìn)行專項(xiàng)訓(xùn)練:涵蓋用于構(gòu)建高保真語(yǔ)音映射的音頻數(shù)據(jù),以及用于圖像生成流匹配訓(xùn)練的海量圖文對(duì)。這種“理解與生成分階段、物理與語(yǔ)義相融合”的訓(xùn)練范式,確保了模型在習(xí)得通用多模態(tài)理解的同時(shí),能夠內(nèi)化真實(shí)的物理規(guī)律。
![]()
圖 3 OmniFysics的四階段訓(xùn)練流程
![]()
FysicsEval:
首個(gè)全維度物理感知與邏輯推理基準(zhǔn),重塑物理AI認(rèn)知邊界
為了全方位量化物理AI的認(rèn)知邊界,我們正式推出了FysicsEval——國(guó)際首個(gè)全維度物理感知與邏輯推理評(píng)測(cè)基準(zhǔn)。該評(píng)測(cè)基準(zhǔn)是一個(gè)面向多模態(tài)物理智能的全維度、多粒度評(píng)估系統(tǒng),首次將物理感知與預(yù)測(cè)、物理邏輯推理、物理世界理解三大核心能力納入同一評(píng)估體系,為通用多模態(tài)模型建立了物理認(rèn)知能力的統(tǒng)一標(biāo)尺。
1.填補(bǔ)行業(yè)空白的綜合評(píng)估體系
現(xiàn)有評(píng)測(cè)基準(zhǔn)主要針對(duì)理論解題或定性場(chǎng)景分析,僅能評(píng)估直覺(jué)物理或物理答題能力,無(wú)法滿足下一代通用物理AI與物理現(xiàn)實(shí)交互的需求。FysicsEval 強(qiáng)調(diào)定量預(yù)測(cè)與定律推理,旨在解決現(xiàn)有評(píng)測(cè)無(wú)法滿足通用大模型與物理世界交互需求的問(wèn)題。基準(zhǔn)包含 3,854 個(gè)源自真實(shí)世界的樣本,覆蓋剛體、軟體、流體三大物理形態(tài),以及密度、摩擦系數(shù)、楊氏模量等 11 類(lèi)關(guān)鍵物理參數(shù)。
![]()
表 1 FysicsEval與現(xiàn)有物理評(píng)測(cè)基準(zhǔn)的全方位對(duì)比
2.三大核心能力維度的深度覆蓋
FysicsEval 建立了統(tǒng)一的評(píng)估框架,涵蓋三個(gè)互補(bǔ)的能力維度:(1)物理屬性定量預(yù)測(cè),考察模型能否從視覺(jué)線索中反推潛在物理參數(shù);(2)可解釋性物理推理,要求模型基于守恒定律和受力分析等,生成符合因果律的推理鏈路;(3)跨模態(tài)一致性理解,評(píng)估模型對(duì)物理世界的理解以及識(shí)別違反物理常識(shí)的“幻覺(jué)”現(xiàn)象的能力。通過(guò)整合定量預(yù)測(cè)、深度推理、物理理解與幻覺(jué)識(shí)別三大核心維度,F(xiàn)ysicsEval 建立了一套嚴(yán)密的物理認(rèn)知評(píng)價(jià)體系,迫使模型走出語(yǔ)義舒適區(qū),直面物理世界的因果鐵律。
![]()
性能驗(yàn)證:
打破 Scaling Law,小參數(shù)量下的物理智能涌現(xiàn)
通過(guò)多維度的綜合實(shí)驗(yàn),OmniFysics 驗(yàn)證了一個(gè)重要結(jié)論:注入顯式物理知識(shí),可以讓緊湊型模型在特定領(lǐng)域超越盲目擴(kuò)大參數(shù)規(guī)模的通用模型。
1.物理AI感知能力的大幅躍升
在專為物理智能設(shè)計(jì)的 FysicsEval 評(píng)測(cè)中,OmniFysics (3B) 展現(xiàn)出驚人的爆發(fā)力,其綜合得分不僅全面超過(guò)同量級(jí)開(kāi)源模型,更在多項(xiàng)關(guān)鍵指標(biāo)上超越了Gemini-2.5-flash和Claude-4.5-Haiku等大規(guī)模參數(shù)的閉源模型整體上取得了最好的物理邏輯推理能力。在 PhysBench、QuantiPhy 等權(quán)威第三方物理榜單上,OmniFysics 同樣保持了領(lǐng)先優(yōu)勢(shì)。這一結(jié)果有力證明了,專用物理數(shù)據(jù)中樞能夠有效彌合小參數(shù)架構(gòu)與高密度物理知識(shí)之間的差距,實(shí)現(xiàn)物理認(rèn)知的越級(jí)表現(xiàn)。
![]()
圖4 FysicsEval全維度物理智能評(píng)估結(jié)果
![]()
圖5物理AI感知能力評(píng)估結(jié)果
2.視覺(jué)多模態(tài)理解的穩(wěn)健表現(xiàn)
物理能力的增強(qiáng)并未犧牲通用的視覺(jué)感知。在 MMBench、MMStar 等六大通用視覺(jué)理解基準(zhǔn)評(píng)測(cè)中,OmniFysics 取得了 72.8% 的平均分,在所有同尺寸的Omni模型中位列第一。特別是在 MMMU 等涉及學(xué)科知識(shí)推理的任務(wù)上,OmniFysics 憑借其強(qiáng)大的物理邏輯訓(xùn)練,展現(xiàn)出了超越傳統(tǒng)視覺(jué)模型的推理魯棒性。
![]()
圖6視覺(jué)多模態(tài)理解能力評(píng)估
3.全模態(tài)與視頻理解的全面領(lǐng)跑
在OmniBench、Video-MME 等全模態(tài)與視頻理解榜單中,OmniFysics 以 49.97 的平均分位居 3B 量級(jí)模型之首,在 5 個(gè)評(píng)估基準(zhǔn)中有 4 個(gè)優(yōu)于 Qwen2.5-Omni 3B。這證明全模態(tài)數(shù)據(jù)和物理視頻感知數(shù)據(jù)的引入,能夠增強(qiáng)模型對(duì)于真實(shí)音視頻環(huán)境的適應(yīng)。
![]()
圖7全模態(tài)與視頻理解能力評(píng)估
4.音頻理解能力評(píng)估
在 MMAU 和 MMAR 音頻理解基準(zhǔn)上,OmniFysics 取得了 61.2 的平均分,這一成績(jī)不僅優(yōu)于 Qwen2.5-Omni 3B,更在部分指標(biāo)上超越了音頻專家模型。這表明 OmniFysics 的全模態(tài)架構(gòu)成功建立了對(duì)聲學(xué)信號(hào)的深度感知,并未因側(cè)重視覺(jué)物理而偏廢聽(tīng)覺(jué)能力。
![]()
圖8音頻理解能力評(píng)估
5.物理忠實(shí)的高保真圖像生成
當(dāng)前的主流文生圖模型及其評(píng)測(cè)體系主要側(cè)重于“語(yǔ)義一致性”與“藝術(shù)美感”,往往忽視了對(duì)“物理規(guī)律一致性”的考量。在定性實(shí)驗(yàn)中,OmniFysics 展現(xiàn)了獨(dú)特的“物理轉(zhuǎn)譯”能力——它能根據(jù)“密度”、“楊氏模量”等抽象參數(shù),生成具有正確材質(zhì)光澤與形變邏輯的圖像,這是當(dāng)前文生圖模型無(wú)法企及的“物理真實(shí)”。
![]()
圖9高保真物理感知的圖像生成
作為首個(gè)注入顯式物理知識(shí)的緊湊型全模態(tài)物理大模型,OmniFysics 成功跨越了隱式神經(jīng)表示與顯式物理定律之間的認(rèn)知鴻溝 。它不僅打破了全模態(tài)模型在參數(shù)規(guī)模上的固有依賴,證明了小參數(shù)量下物理智能涌現(xiàn)的可行性 ,更將多模態(tài)生成的范式從單純的“語(yǔ)義對(duì)齊”重塑為嚴(yán)謹(jǐn)?shù)摹拔锢碇覍?shí)”。OmniFysics 確立了具備物理規(guī)律的因果邏輯與高精度物理預(yù)測(cè)能力的物理AI 新范式,為具身智能在真實(shí)物理世界中的感知、交互與演進(jìn)奠定了堅(jiān)實(shí)的基礎(chǔ)。
數(shù)據(jù)基準(zhǔn): https://github.com/Fysics-AI/FysicsEval
Hugging Face鏈接: https://huggingface.co/datasets/Fysics-AI/FysicsEval
飛捷科思智能科技(上海)有限公司由復(fù)旦大學(xué)智能機(jī)器人與先進(jìn)制造創(chuàng)新學(xué)院副院長(zhǎng)、智能機(jī)器人研究院常務(wù)副院長(zhǎng),原英偉達(dá)PhysX物理引擎主要奠基人與研發(fā)團(tuán)隊(duì)負(fù)責(zé)人張立華教授創(chuàng)辦,是國(guó)內(nèi)唯一擁有完全自主研發(fā)的可微分通用物理仿真引擎產(chǎn)品的企業(yè)。公司以新一代物理仿真引擎 Fysics為核心,致力于打造全球領(lǐng)先的物理智能關(guān)鍵技術(shù)與產(chǎn)品,推動(dòng)具身智能與人形機(jī)器人技術(shù)研發(fā)及應(yīng)用場(chǎng)景的快速落地,在高精度物理仿真引擎、高質(zhì)量具身智能仿真平臺(tái)、機(jī)器人敏捷運(yùn)動(dòng)與魯棒智能控制等領(lǐng)域處于行業(yè)領(lǐng)先水平,并向行業(yè)提供覆蓋“仿真—訓(xùn)練—部署—迭代”的全棧解決方案。依托自主可控的物理智能底座,公司持續(xù)賦能中國(guó)具身智能與機(jī)器人產(chǎn)業(yè)的發(fā)展。
打開(kāi)鏈接:https://arxiv.org/pdf/2602.07064,下載技術(shù)報(bào)告
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.