網易首頁 > 網易號 > 正文申請入駐

商湯發布多模態“效率怪獸”，開源即SOTA！最小僅8B，比肩商用

2026-04-28 22:16:02　來源: 智東西

北京舉報

分享至

智東西
作者江宇
編輯漠影

當GPT images 2.0又再一次搶占頭條，人們對多模態模型的關注也在悄然變化：“畫得好”已經不再是問題了，我們還想要“速度快、效率高、成本低”。

過去很長一段時間里，視覺理解與圖像生成，往往被拆分為兩套體系：前者負責“看懂”，后者負責“畫出”，中間通過不同模塊進行銜接。這種在底層邏輯上的割裂，是阻礙模型效率的核心。

商湯這次的思路，是從架構層面直接處理這個問題。

他們剛剛開源了原生理解生成統一模型SenseNova U1，便基于自研的NEO-unify架構，將圖像與文本的理解與生成能力統一到同一體系中，沒有了“中間商”之后，效率得到大幅提升。

在圖像理解與生成的多項基準測試中，SenseNova U1 Lite在同量級開源模型中達到SOTA水平，并在多項指標上逼近商業閉源模型表現。以8B參數規模，實現接近更大模型的能力，得到“以小搏大”的表現。

▲高密度信息圖（en）

▲高密度信息圖（zh）

目前，用戶可以在Hugging Face、GitHub獲取開源模型。同時，商湯AI辦公智能體“辦公小浣熊3.0”也即將接入SenseNova U1，用戶可直接體驗相關能力。

一、不靠堆參數，靠效率取勝：8B模型拿下開源SOTA

本次開源包含兩個版本：SenseNova-U1-8B-MoT與SenseNova-U1-A3B-MoT，均基于統一的多模態理解、推理與生成架構，面向圖文理解、生成及復雜交互任務。

如果從測評結果來看，SenseNova U1最突出的優勢，在于整體效率——在理解、生成、推理與圖文交錯多個維度上，用更小的模型規模，跑出了接近甚至逼近商業閉源模型的表現。

在理解側，SenseNova-U1-8B-MoT在AI2D、IFBench等基準上均取得領先表現，例如在AI2D上達到91.7分。結合空間理解相關測試，可以看到模型在復雜結構與關系判斷等任務中表現穩定，具備一定的邏輯推理能力。

在生成側，模型在GenEval、OneIG、LongTextBench等任務中表現穩定，能夠同時兼顧復雜結構生成與文本一致性。尤其是在信息圖生成（Infographics）任務中，平均得分達到50.7，是開源模型最強，媲美部分閉源商業模型。

進一步看編輯與圖文交錯能力，在Editing、Visual Reasoning等任務中，SenseNova U1在WISE、VBVR、OpenING、GEdit-Bench等測試中表現突出。例如在OpenING相關任務中達到91分，在視覺推理任務中也明顯優于傳統圖像生成模型。

但相比這些分項成績，更關鍵的是它的“性能—效率比”。

從對比結果來看，在信息圖生成與長文本等任務中，SenseNova U1在約15秒延遲下即可取得接近60分的平均成績，整體屬于“高性能、低延遲”。對比Qwen-Image 2.0 Pro、Seedream 4.5等模型，其在生成質量接近商業閉源模型的同時，響應速度更快。

▲Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench

▲Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

這些性能表現背后，主要還是來自底層架構的優勢。SenseNova U1基于商湯自研的NEO-unify原生統一架構，在設計上減少了中間環節帶來的信息損耗，因此在數據利用效率和推理開銷上更有優勢。

最終呈現出來的，才得以是“以小搏大”的優勢：僅用8B參數規模，在多個維度達到同量級開源模型SOTA，并在部分任務上逼近商業閉源模型。

從測評結果來看，這種優勢已經比較清晰。至于落到真實使用場景中，SenseNova U1是否同樣穩定、好用，我們來實測一番。

二、一手實測揭秘：從立體排版到“言出法隨”

智東西選取了多個不同類型的任務進行測試，覆蓋高密度信息圖、趣味創意圖以及技術流程圖等典型場景。

創作信息圖可以說是最能“精準擊中”職場人的能力。用戶只需要輸入文章、資料或文字說明，模型就能將其中的關鍵信息提煉出來，并生成一張具備結構、層級和視覺重點的信息圖。

在“蘇超出圈之路”這一案例中，模型就生成了一張多層蛋糕式信息圖。不同階段以立體分層形式呈現，文字隨著結構自然分布在不同空間層級中，而不是簡單平鋪。

這背后其實反映的是模型對結構的理解能力。更關鍵的是，在這種復雜排版下，整張圖沒有出現明顯的文字錯位、遮擋或渲染錯誤，整體可讀性很高。

換一個更復雜的文本場景來看，模型對富文本結構的理解能力，體現得更明顯：哪些信息需要突出，哪些適合做流程，哪些更適合用圖表表達，哪些需要用圖標輔助理解。

“龍蝦使用指南”這個案例，就更能體現細節處理能力。

這一任務中包含大量中英文混排、不同字號文本以及情緒化表達。模型不僅把“禁止模糊指令”“禁止無限重試”這些核心文案寫對了，還自動匹配了對應的圖標和帶情緒的畫面，比如龍蝦被“壓榨”、被“投喂指令”等。

不同模塊之間的文字大小、間距和布局都處理得較為合理，沒有擠在一起，已經達到直接商用的水準了。

在人物與指令理解方面，“馬斯克vs奧特曼”這一案例更具代表性。

在提示詞中僅輸入“奧特曼”這一昵稱，模型直接生成了一個穿西裝的“奧特曼形象”，與旁邊的馬斯克形成對比，既符合語義又帶有明顯的趣味性。與此同時，馬斯克的表情、動作以及整個對峙氛圍也都比較到位，可見模型在人物理解和場景構建上具備較強的語義對齊能力。

到了技術表達這一步，難度其實更高。在“SenseNova U1技術解讀”這一案例中，模型需要生成的是一張邏輯清晰的技術流程圖。

從結果來看，整體結構層級清晰，信息分區明確、表達直觀，對于非技術讀者也較為友好。

一輪實測下來，另一個比較直觀的感受是速度。這類圖像的生成基本都在十幾秒內完成，有點接近“言出法隨”的感覺。

在這樣的生成效率下，各種應用場景也不在話下。目前，SenseNova U1可生成信息圖譜、專業簡歷、生活指南、產品說明、百科知識、漫畫創作等多種內容。對營銷、辦公、設計、商業分析等場景來說，這類能力直接對應的是內容生產效率提升。

三、告別“縫合”，NEO-unify架構如何成為理解與生成的“通才”？

測評集成績有優勢，實測效果也毫不遜色，這個原生框架究竟好在哪里，我們來拆解一下。

過去，多模態模型的工作方式更像是“分工協作”：視覺編碼器負責理解圖像，變分自編碼器負責生成圖像。前者看圖，后者畫圖，中間再通過不同模塊完成銜接。

理解與生成更像兩條并行的流程，能配合，但很難真正融合，所以SenseNova U1這次選擇直接推倒重建，從底層架構上直接改掉這套“拼接式”體系。

其采用的自研NEO-unify架構，不再把語言和視覺當作需要中間轉換的兩種信號，而是從一開始就把它們當作同一類信息來建模。

換句話說，語言與視覺不再各走各路，在同一套表征體系里共同參與理解、推理和生成。

這種設計本質上回到了“多模態AI第一性原理”：不同模態之間本來就是內在關聯的。

在具體實現上，模型盡量減少中間壓縮與轉換環節，直接從接近原始的像素和文本信息中學習，讓信息在傳遞過程中損耗更小。

同時，它的數據和推理效率也更高。這也是SenseNova U1值得關注的地方：并不是單純靠堆參數規模換效果，而是在底層架構上重新處理多模態模型的協作方式。

四、當AI學會“帶圖思考”，展開空間智能更多想象

不同于GPT-image2單純圖像上的“卷王體質”，SenseNova U1也展示了另一種可能：讓圖像成為邏輯的一部分，并在推理過程中引入對空間結構的理解。

這也是其“連續性圖文創作輸出”的能力核心。

SenseNova U1是業內首個能夠在單一模型上進行連貫圖文交錯生成的模型。這意味著，在處理復雜任務時，模型可以一邊解釋邏輯，一邊生成對應的示意圖、流程圖、草圖或設計圖。

例如在教程、在繪本故事等場景中，它可以讓文字敘事、插圖風格、人物事件等保持一致性與連貫。

同時，SenseNova-U1并不是先生成一段完整文字，再去“補圖”，而是從材料準備或構圖草稿開始，一步步輸出關鍵操作，并同步生成對應畫面。

整個生成過程是連續的：步驟之間有承接關系，圖像之間保持風格一致，文字和視覺內容也始終圍繞同一上下文展開。這種連貫性，在過去依賴多模型串聯的方案中很難穩定實現，往往會出現風格漂移或信息斷裂。

本質上，這得益于SenseNova U1所具備的原生圖文理解生成能力，能天然將圖像和文本底層融合信號完整的保留上下文中，在統一表征空間進行高效連貫思考。

這也讓它和空間智能產生了更直接的聯系。空間智能關注的是模型如何理解位置、方向、布局、關系和結構，而這些能力恰恰會在圖像生成、高密度信息圖排版、流程圖構建和場景示意中反復出現。

如果繼續往后看，這類能力也可能成為具身智能的重要基礎。機器人要在真實環境中完成任務，不僅要“看見”物體，還要理解物體之間的關系、判斷行動路徑，并根據任務目標做出連續決策。

從這個角度看，SenseNova U1的意義不只是生成更好看的圖，而是在單一模型中嘗試打通理解、推理和視覺表達。它距離真正成為機器人的“具身大腦”還有距離，但這類統一架構，至少提供了一條更接近多模態閉環的技術路徑。

結語：理解與生成走向統一，多模態模型進入分岔口

從底層架構的NEO-unify創新，到應用層面的原生圖文交錯與高密度信息圖生成，商湯的全面開源，不僅是參數規模上的“以小搏大”，更是對多模態第一性原理的深度回歸。

當行業還在討論生圖模型的真實邊界時，SenseNova U1已經通過理解與生成的統一，為AGI的到來鋪就了一條更具效率的路徑。

開源的力量將讓這種原生多模態能力迅速滲透進每一個垂直行業，我們正在見證的是一個“圖文同構、思畫合一”的全新時代的開啟。

在大模型全球競賽的下半場，國產模型正在輸出屬于自己的硬核解法。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

原生理解生成統一:商湯SenseNova U1,用統一架構終結縫合怪多模態

機器之心Pro 2026-04-28 21:41:55
0 跟貼 0
LangFlow: 挑戰離散擴散，探索下一代語言模型新范式

機器之心Pro 2026-04-28 22:22:24
0 跟貼 0

不到一歲的寶寶，居然能聽懂指令，動作還比大人標準

領笑之家 2026-04-25 16:49:16
43 跟貼 43

視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

DPO「只看總分不看細節」？TI-DPO用Token重要性重塑大模型對齊

機器之心Pro 2026-02-11 13:45:57
0 跟貼 0

大模型的“保質期”比牛奶還短

鈦媒體APP 2026-04-28 18:54:26
0 跟貼 0
消費級顯卡可以快速上手跑！面壁智能MiniCPM-o 4.5發技術報告

量子位 2026-04-28 22:47:00
4 跟貼 4

上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15250 跟貼 15250
超越DeepSeek-V4！羅福莉交出小米最強開源模型，首日適配5家國產芯片

智東西 2026-04-28 08:39:35
427 跟貼 427
大爺大媽廣場舞，美女發出指令讓大爺心急，下秒讓男人都嫉妒！

大眼貓侃世界 2026-04-25 16:19:04
0 跟貼 0
歸藏PPT Skills升級：用Codex生成高質圖片

歸藏的AI工具箱 2026-04-28 20:21:21
5 跟貼 5
C羅參加點球機器人守門挑戰，這反應沒誰了

唐唐說趣 2026-04-26 16:51:58
1 跟貼 1
約會教練的實戰手冊：什么真的有用

晚風也遺憾 2026-04-29 00:31:47
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
6 跟貼 6
2026 版 8 種政府采購方式全流程圖（收藏備用）

審計之家 2026-04-28 09:34:08
0 跟貼 0
汽車的「OpenClaw 時刻」，到了？

極客公園 2026-04-28 20:18:16
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構

盧菁老師 2026-04-27 02:14:19
0 跟貼 0
伊朗導彈進入戰備，當地美公民全體收到“撤離”指令

記得那片海辛 2026-04-27 09:30:28
0 跟貼 0
科大訊飛2025年實現營收271.05億元大模型賦能行業加速商業化落地

經濟觀察報 2026-04-28 20:30:16
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
網傳深圳東部華僑城結業、閉園？最新回應：不實

魯中晨報 2026-04-28 17:08:10
294 跟貼 294
辭任杭州市市長后，姚高員已任浙江省政府黨組成員

澎湃新聞 2026-04-28 14:24:00
159 跟貼 159
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
羅納爾多的接球邏輯，獨屬于外星人的無解調整！

愛笑無厘頭 2026-04-26 12:03:51
1 跟貼 1
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
南都報道后，區長現場督辦！廣州天河這條路“驚心”變順心

南方都市報 2026-04-28 15:12:23
192 跟貼 192
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
OpenAI與微軟“離婚”了，反目成仇還是好聚好散

虎嗅APP 2026-04-29 04:45:36
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
又一省份推動帶薪休假落地

澎湃新聞 2026-04-28 11:11:03
103 跟貼 103
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0

智東西

智東西，AI產業新媒體，專注報道人工智能的前沿技術發展，和技術應用帶來的千行百業產業變革。

11710文章數 117051關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

家居

旅游

公開課

軍事航空

干細胞治療燒燙傷三大優勢！

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

商湯發布多模態“效率怪獸”，開源即SOTA！最小僅8B，比肩商用

10億周活目標落空！傳OpenAI爆發內部分歧

19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

19歲中國女孩被困緬甸 交20萬贖金園區仍未放人

魔術黑八活塞，一步之遙？！

蔡卓妍官宣結婚，老公比她小10歲

中央政治局會議定調，八大看點速覽！

拒絕瘋狂套娃！現代艾尼氪金星長在未來審美點上

態度原創

干細胞治療燒燙傷三大優勢！

江景風格 流動的秩序

德國總理默茨：美國正遭受伊朗領導層的羞辱

19歲中國女孩被困緬甸交20萬贖金園區仍未放人

19歲中國女孩被困緬甸交20萬贖金園區仍未放人

江景風格流動的秩序