網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

初探空間智能尺度效應(yīng)：商湯開(kāi)源SenseNova-SI-1.3，八大空間智能榜單綜合評(píng)分登頂

2026-02-06 15:32:16　來(lái)源: 硅星Breaknews

上海舉報(bào)

分享至

商湯科技正式開(kāi)源空間智能模型日日新SenseNova-SI-1.3，在空間測(cè)量、視角轉(zhuǎn)換、綜合推理等核心任務(wù)中展現(xiàn)出顯著提升，另外對(duì)比之前的版本增強(qiáng)了回答簡(jiǎn)答題的能力。在集成多項(xiàng)權(quán)威空間智能榜單的綜合評(píng)測(cè)平臺(tái)EASI上，SenseNova-SI-1.3綜合性能超越Gemini-3-Pro，均分?jǐn)孬@EASI-8（八個(gè)權(quán)威空間智能榜單的混合評(píng)測(cè)）標(biāo)準(zhǔn)第一，在多個(gè)高難度空間任務(wù)（尤其是視角轉(zhuǎn)換）中表現(xiàn)優(yōu)異。

刁鉆考題驗(yàn)證：SenseNova-SI-1.3精準(zhǔn)突破空間智能核心難點(diǎn)

EASI-8包含一系列專門考察空間理解能力的高難度測(cè)試題，讓Gemini-3-Pro等模型都頻頻踩坑。那么SenseNova-SI-1.3表現(xiàn)如何呢？（下列問(wèn)題在測(cè)試模型時(shí)使用的原題為英文，為便于讀者理解翻譯為中文）。

題目要求統(tǒng)計(jì)兩張照片中建筑模型的總數(shù)量，核心難點(diǎn)是理解兩張圖的對(duì)應(yīng)關(guān)系，以此避免遮擋漏數(shù)和重復(fù)多數(shù)。圖2視角下顯現(xiàn)出圖 1 中被遮擋的深灰色建筑，且部分模型在兩圖中重復(fù)出現(xiàn)。Gemini-3-Pro未完全去重，誤數(shù)為 6 個(gè)；SenseNova-SI-1.3則給出 “4 個(gè)”的準(zhǔn)確答案。

題目給出兩張書房局部照片，已知 iMac 位于房間北部，詢問(wèn)學(xué)生寫作業(yè)區(qū)域的方位。需先理解兩張圖片屬于同一空間，再通過(guò)視覺(jué)線索拼接場(chǎng)景。Gemini-3-Pro誤判學(xué)習(xí)區(qū)在西側(cè)；SenseNova-SI-1.3精準(zhǔn)定位 “西北角”，完全符合空間邏輯。

題目要求以 “未戴眼鏡男士的自身視角” 判斷身旁戴眼鏡男士的方位，考察 “參照系轉(zhuǎn)換” 能力，模型很容易以“觀察者視角”來(lái)判斷方向。Gemini-3-Pro就誤選了 “右邊”；SenseNova-SI-1.3則能正確給出 “左邊” 的正確答案。

題目給出粉色瓶子前、后、左、右 4 張照片，詢問(wèn)圖 4 角度下瓶子左邊物體。這道題需整合多視角線索重構(gòu)房間全局布局，再切換至目標(biāo)視角判斷方位 —— 第 4 張照片中瓶子左側(cè)完全處于視覺(jué)盲區(qū)，僅能通過(guò)前 3 張圖中的窗戶、床、衣柜等線索還原空間關(guān)系。Gemini-3-Pro誤選 “窗戶和藍(lán)色窗簾”，SenseNova-SI-1.3精準(zhǔn)鎖定正確答案 “衣柜和門”。

以雙層巴士與公交站的場(chǎng)景為題，需避免陷入“英國(guó)巴士靠左行駛，因此靠站的是左側(cè)”的常識(shí)陷阱，而是通過(guò)實(shí)際的視覺(jué)畫面判斷方位。Gemini-3-Pro誤判 “左側(cè)” 為答案；而 SenseNova-SI-1.3 則準(zhǔn)確理解 “右側(cè)” 為正確答案。

空間智能是極其獨(dú)特的多模態(tài)能力

Core Knowledge Deficits in Multi-Modal Language Models (2025)發(fā)現(xiàn)視角轉(zhuǎn)換任務(wù)與其它多模態(tài)任務(wù)的相關(guān)性（紅框內(nèi)）呈藍(lán)色，即代表相關(guān)性較低

一篇2025年發(fā)表于機(jī)器學(xué)習(xí)頂會(huì)ICML的論文《Core Knowledge Deficits in Multi-Modal Language Models》揭示了一個(gè)有趣的發(fā)現(xiàn)：視角轉(zhuǎn)換（Perspective）和所有傳統(tǒng)多模態(tài)模型的能力的相關(guān)性均異常得低，這代表主流算法路徑可能不是空間智能的形成的有效路徑，這也解釋了為什么領(lǐng)先的多模態(tài)大模型在空間智能相關(guān)的任務(wù)上表現(xiàn)不佳。

Core Knowledge Deficits in Multi-Modal Language Models (2025)發(fā)現(xiàn)增大模型尺寸對(duì)提升視角轉(zhuǎn)換任務(wù)效果不佳

這篇論文也發(fā)現(xiàn)，空間智能似乎存在反尺度效應(yīng)的現(xiàn)象：更大的模型并不能更好地解決空間智能任務(wù)。另外，在EASI的官方報(bào)告中也可以找到相似的描述，指出視角轉(zhuǎn)換任務(wù)（Perspective-taking）依然是最具挑戰(zhàn)的基礎(chǔ)能力之一。

空間智能需要全新的學(xué)習(xí)范式。

從3D世界數(shù)據(jù)匱乏到空間智能的尺度效應(yīng)

空間智能的核心——視角轉(zhuǎn)換任務(wù)被拆解成了三個(gè)關(guān)鍵步驟：建立跨視角關(guān)聯(lián)、理解視角移動(dòng)、想象視角變換，并圍繞著解決這三個(gè)基礎(chǔ)能力構(gòu)造大量訓(xùn)練數(shù)據(jù)

學(xué)術(shù)界現(xiàn)有數(shù)據(jù)集多著重于目標(biāo)識(shí)別與場(chǎng)景理解，模型往往停留在圖像模式匹配階段，難以形成穩(wěn)定的空間理解能力。基于這一洞察，想要解決空間智能尤其是視角轉(zhuǎn)換任務(wù)，簡(jiǎn)單擴(kuò)充相關(guān)數(shù)據(jù)規(guī)模是不夠的。為了解決這一根本問(wèn)題，我們將視角轉(zhuǎn)換看作從二維視覺(jué)信息邁向三維空間關(guān)系理解的關(guān)鍵橋梁，并將其拆解為遞進(jìn)的能力階段，由易到難、難度遞增的三個(gè)任務(wù)層級(jí)（建立跨視角關(guān)聯(lián)、理解視角移動(dòng)、想象視角變換），并構(gòu)造大量且層次分明的訓(xùn)練數(shù)據(jù)，使模型建立完備的空間理解能力。

同時(shí)，在數(shù)據(jù)規(guī)模持續(xù)擴(kuò)大的過(guò)程中，SenseNova-SI團(tuán)隊(duì)挖掘并重組多視角學(xué)術(shù)數(shù)據(jù)資源，將許多過(guò)去未被充分利用的標(biāo)注轉(zhuǎn)化為視角轉(zhuǎn)換訓(xùn)練數(shù)據(jù)。例如，多目關(guān)聯(lián)數(shù)據(jù)集 MessyTable提供了高物體復(fù)雜度場(chǎng)景，其中跨視角物體一致性信息與精確的相機(jī)位姿標(biāo)注，可用于訓(xùn)練物體對(duì)應(yīng)與相機(jī)運(yùn)動(dòng)推理能力；而部分室內(nèi)場(chǎng)景掃描數(shù)據(jù)如CA-1M中包含物體自身朝向標(biāo)注的樣本，則被用于補(bǔ)充模型進(jìn)行視角轉(zhuǎn)換與想象所需的稀缺數(shù)據(jù)。這種跨數(shù)據(jù)源的重組與再利用，使積累大量豐富而系統(tǒng)的空間理解數(shù)據(jù)成為可能。

空間智能的尺度效應(yīng)：SenseNova-SI在視角轉(zhuǎn)換任務(wù)上超越GPT-5

大規(guī)模高質(zhì)量的空間智能數(shù)據(jù)在SenseNova-SI團(tuán)隊(duì)的手中最終驗(yàn)證了空間智能的尺度效應(yīng)：SenseNova-SI的8B參數(shù)基模型最終超越了強(qiáng)閉源模型如GPT-5，而2B參數(shù)的小模型也表現(xiàn)不俗，在相同數(shù)據(jù)規(guī)模下，甚至超越了紐約大學(xué)的Cambrian-S和字節(jié)的VST兩個(gè)7B參數(shù)的模型。

只在Ego-Exo4D上訓(xùn)練第一/第三人稱視角匹配的模型可以大幅提升(+90.4%)在MMSI的2D迷宮導(dǎo)航問(wèn)題上的表現(xiàn)

更有趣的是，團(tuán)隊(duì)在研究中似乎發(fā)現(xiàn)了一些智能涌現(xiàn)的先兆：一些看起來(lái)毫無(wú)關(guān)聯(lián)的但也許細(xì)想之下有底層能力聯(lián)系的任務(wù)可以協(xié)同發(fā)展。另外，團(tuán)隊(duì)也發(fā)現(xiàn)在視角轉(zhuǎn)換任務(wù)上訓(xùn)練的模型也可以增強(qiáng)如心智重建（Mental Reconstruction）、綜合空間推理（Comprehensive Reasoning）等能力。

商湯引領(lǐng)空間智能普惠生態(tài)

SenseNova-SI-1.3模型的升級(jí)發(fā)布背后，是商湯科技始終致力于打破技術(shù)壁壘，讓頂尖空間智能技術(shù)惠及更多開(kāi)發(fā)者與企業(yè)。對(duì)科研人員而言，SenseNova-SI-1.3通過(guò)在空間智能上驗(yàn)證數(shù)據(jù)尺度效應(yīng)提供了一個(gè)與現(xiàn)有基座模型完全兼容，但又長(zhǎng)于空間智能的強(qiáng)力預(yù)訓(xùn)練模型和基線（SenseNova-SI已被VSI-Bench, MMSI-Bench等權(quán)威榜單官方收錄），可以直接在其之上設(shè)計(jì)創(chuàng)新算法或者續(xù)訓(xùn)，推動(dòng)空間智能向人類水平邁進(jìn)；對(duì)企業(yè)來(lái)說(shuō)，可直接基于 SenseNova-SI-1.3快速落地應(yīng)用，縮短研發(fā)周期、降低技術(shù)門檻；對(duì)普通用戶而言，未來(lái)將有更多搭載先進(jìn)空間智能的產(chǎn)品走進(jìn)生活 —— 從智能家電到自動(dòng)駕駛，從工業(yè)機(jī)器人到教育設(shè)備，都將更懂 “空間邏輯”、更貼合實(shí)際需求。

SenseNova-SI在具身任務(wù)上的探索了空間智能的重要性

開(kāi)源地址

SenseNova-SI模型家族：https://huggingface.co/collections/sensenova/sensenova-si

SenseNova-SI開(kāi)源代碼：https://github.com/OpenSenseNova/SenseNova-SI

Discord 社區(qū)邀請(qǐng)碼：https://discord.gg/WBzH62bk

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.