網易首頁 > 網易號 > 正文申請入駐

原生理解生成統一:商湯SenseNova U1,用統一架構終結縫合怪多模態

2026-04-28 21:41:55　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

就在每次大家剛摸熟玩法時，新花樣又來了。

最近，全網集體上頭的是 OpenAI 發布的 GPT Image 2。它不只會生成好看的圖片，更是把「信息圖生成」帶火了：知識卡片、數據圖解、攻略長圖、科普海報…… 只要一句話，就能生成一張排版精致、信息清晰、質感在線的圖片。這波出圈速度，絲毫不亞于當年的吉卜力風格刷屏。

但對于國內用戶來說，想體驗 GPT Image 2 還是有些難度的。那有沒有一個更低門檻、更適合國內用戶的選擇？

好巧，還真有。

剛剛，我們發現了一款國產開源模型，正好踩中了這個需求 —— 來自商湯的日日新 SenseNova U1 系列原生理解生成統一模型

那些超大參數模型的玩法，它都能做，以前特別費腦、費時間的內容，現在只需要把需求說清楚，它就能自動完成信息整理、版式設計和視覺呈現，直接給你「看起來很專業」的成品圖。

而且它完全開源，也不受次數束縛。

就像這樣：

SenseNova U1 不只是會「畫圖」，它采用了NEO-unify 理解生成統一的全新架構，能夠真正讓語言和視覺信息協同。所以它只需8B 的小參數，就能實現很多商業閉源模型同樣的效果，效率拉滿。

由于能夠把視覺信息直接納入思考鏈路中，它還在行業首創了連續性圖文創作輸出的模式。

另外，值得說明的是，商湯這次開源的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite，包含SenseNova-U1-8B-MoTSenseNova-U1-A3B-MoT兩個版本。

GitHub：https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face：https://huggingface.co/collections/sensenova/sensenova-u1

雖然身板小，但它在多個測評維度上性能領先。

在圖像理解與生成基準測試中，SenseNova-U1-8B-MoT 的表現相當亮眼。雖然它只是 8B 級模型，但在通用理解、空間理解等多個測試中都取得了領先成績，甚至超過了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大規模模型。簡單說，SenseNova-U1-8B-MoT 并不是靠堆參數取勝，而是在較小體量下做出了更高效的多模態理解能力。

在圖像生成基準測試上，SenseNova U1 Lite 在信息圖生成（Infographics）的其中一項拿到了 39.8 的高分，領先 Qwen-Image 等模型。這說明在處理高難度、高密度信息轉化為圖表時，SenseNova U1 具備行業領先的邏輯重組能力。

在文字渲染（Text Rendering）這一維度下，SenseNova U1 Lite 的成績幾乎全面領先。AI 生圖最怕文字崩壞，這一測試結果證明了 SenseNova U1 Lite 在視覺化文字上的精準度。

視覺推理是 AI 最容易「翻車」的地方，因為它要求模型不僅要看懂圖像，還要進行復雜的邏輯推理。SenseNova U1 （VBVR (UMM) 得分）拿到了 60.5 的高分，超過對比模型（如 Nano-Banana 的 49.6）。這意味著在處理復雜的視覺關系推理時，它比同類模型表現得更加「聰明」。

在 WISE 維度上取得了 69.0 的優異成績，領先于 Qwen-Image（63.0）以及其他一眾模型。這表明在執行基于人類意圖的視覺修改時，它對「指令」的解析與「像素」的操控結合得更加緊密。

GEdit-Bench 得分 7.47，在同量級開源模型中處于頂尖位置，甚至優于一些參數規模更大的閉源替代方案。

實測后發現，這才是你急需的提效利器

光看榜單當然不過癮。

SenseNova U1 Lite 在業內首個實現連續性的圖文創作輸出

傳統模型的工作方式是：先用文字把問題想清楚，再調用外部工具把圖生出來，這是兩個步驟，兩套系統，中間還有中間商負責牽線。SenseNova U1 Lite 打破的，正是這道墻，它能在同一套推理過程中，讓圖像和文字同步生長，示意圖、流程圖、草圖，在它推理的同時就已經出現了，而不是等推理結束后再配上去。

我們來看幾個實際效果。

讓它生成一幅小白兔和大灰狼的故事連環畫。

從結果可以看出，SenseNova U1 Lite 可以一邊推進故事情節，一邊同步生成對應場景的插圖，圖和文本來自同一套思維過程，邏輯連貫、風格統一。

想學習電影運鏡，也可以向 SenseNova U1 Lite 提問，它會把文字解釋和視覺圖同步給你，并且保持人物角色的高度一致性。這比單純的文字教程好懂得多，也比純圖示來得有邏輯。

這種帶圖思考的能力，正是 SenseNova U1 的原生圖文理解生成能力。它能把圖像與文本從底層進行融合，實現高效、連貫的思考和圖文交錯輸出。不但效率高，也更接近人類的理解與表達模式。

我們還用 SenseNova U1 Lite 嘗試了復雜高密度信息圖（infographic）的生成

信息圖要解決的是一個真實的表達困境：一篇論文、一份研報、一個操作流程、一個知識點，原始形態往往密度過高、結構不清，大多數人看到就想關掉。而一張好的信息圖，能把同樣的內容重新組織，讓讀者在幾秒鐘內抓住核心。

首先，我們讓模型生成了一張適合可愛女生的短發造型信息圖，SenseNova U1 Lite 完成度依然在線。

在接下來的案例中，SenseNova U1 Lite 生成的占星術與塔羅牌占卜圖片風格華麗，充滿了神秘主義元素，如果你對星座感興趣，不放也試著做一份屬于自己的星座圖。

讀不下去的論文，交給它。

最近，谷歌 DeepMind 發布了一篇頗受關注的論文《Image Generators are Generalist Vision Learners》，內容密度高，需要反復閱讀才能理清脈絡。我們把摘要丟給 SenseNova U1 Lite，讓它生成一份圖解。它不只是把文字重新排了一遍，而是真正提取出了論文的核心主張、方法邏輯和關鍵結論，用更直觀的視覺結構把這些內容呈現出來，讓一篇需要沉下心來讀的學術文章，變得可以快速上手。

論文地址：https://arxiv.org/abs/2604.20329v1

接著，我們又換了一個完全不同的題材：讓模型生成一張「武俠江湖禁忌」信息圖。

這類內容看似輕松，其實很考驗模型的結構化表達能力。因為它既要有江湖味，又要讓讀者一眼看懂規則。

SenseNova U1 Lite 的完成效果依然很有意思。它把江湖禁忌拆成了幾個清晰板塊：比如勿偷學武功，勿背后放冷箭暗器等。

金庸江湖生存指南：

接下來，我們又讓模型生成了一張「檸檬的萬能指南」信息圖。SenseNova U1 Lite 的處理方式比較聰明。它把檸檬的用途拆成了幾個清晰模塊：烹飪、家居清潔、心身療愈。

生成詹姆斯 · 喬治 · 弗雷澤名著「金枝」（The Golden Bough）信息圖：

刺繡入門指南：

城市明信片：

從以上結果可以看出，對于高信息密度場景，SenseNova U1 Lite 處理起來相當游刃有余。

高效統一架構，讓小模型跑出大模型效果

看完這些效果，一個問題自然會浮現：它為什么能做到這些？

過去，多模態 AI 幾乎被一個固定范式所統治：視覺編碼器負責感知理解，把圖像壓縮成特征向量喂給語言模型；變分自編碼器負責生成圖像，把語言模型的意圖解碼成像素。兩套系統各司其職，看似分工明確，卻在理解與生成之間埋下了一道天然的斷層。

問題出在壓縮這個動作上。視覺編碼器把圖像變成特征向量，本質是一次有損的信息篩選，它預先決定了哪些視覺細節值得保留、哪些可以舍棄。而這個決定，早在模型真正開始思考之前就已經做完了。生成側同樣如此：解碼器只能從語言模型的理解結果中重建圖像，而不是從原始像素出發。兩端都在用二手信息工作，斷層由此而來。

這種路線并不是沒有價值。相反，它是過去幾年多模態模型快速發展的重要基礎。但它的問題也很明顯：每多經過一個模塊，信息就多一次轉換；每多一次轉換，就可能帶來一次損耗。尤其是圖像這種信息密度很高的模態，一旦被過度壓縮，細節、空間關系、局部結構都可能被弱化。到了生成階段，模型再想把這些信息完整還原出來，就會變得更困難。

這也是為什么很多多模態模型會出現一種割裂感：它可能能說清楚圖里有什么，卻不一定能準確畫出復雜結構；它可能能生成一張好看的圖片，卻不一定真正理解文字里的邏輯關系；它也可能能完成單張圖生成，但一旦要求連續輸出多張風格一致、邏輯連貫的圖文內容，就容易出現前后不一致、細節漂移、版式混亂等問題。

SenseNova U1 Lite 的答案，是一套叫做 NEO-Unify 的原生多模態架構，解決這種理解和生成之間的斷層

其思路是把這些原本分開的環節盡可能收攏到一個統一架構里。它不再把視覺和語言當成兩個需要互相翻譯的系統，而是讓圖像信息和文本信息在同一個內部空間中共同參與計算。這樣一來，模型處理圖文任務時，不需要在看圖系統、語言系統、生成系統之間來回傳遞，而是可以在同一套模型內部完成感知、理解、推理和表達。

這樣做帶來的第一個好處，是信息路徑更短。

傳統架構里，模型完成一次復雜圖文任務，可能要經歷看圖 — 理解 — 規劃 — 生成 — 修正等多個階段，而且每個階段之間都存在對齊成本。SenseNova U1 Lite 的統一架構則更像是把這些環節壓縮進同一個大腦里，讓模型可以一邊理解內容，一邊組織畫面，一邊保持語義和視覺的一致性。少了中間轉譯，模型就能把更多計算用于真正的理解和生成，而不是消耗在模塊之間的銜接上。

第二個好處，是效率更高。

通過架構上的統一，減少不必要的信息損耗和流程開銷，讓較小規模的模型也能釋放出更高的有效能力。

這也是 SenseNova-U1-8B-MoT 值得單獨拿出來看的原因。8B 級別的模型規模并不算大，但它在圖像生成、圖像編輯、復雜信息圖、視覺推理等任務中，能夠接近甚至追上部分大型商業模型。背后的關鍵，并不是簡單小參數逆襲大模型，而是統一架構讓計算利用率更高，模型不需要花太多能力去彌補模塊割裂帶來的損耗。

這可以通過一些實驗結果來說明：

如下圖所示，SenseNova-U1-8B-MoT 位于相當靠左的位置，延遲大約只有 15 秒 / 2K 圖，是所有對比模型中生成速度最突出的一個。同時，它的平均得分接近 67 分，已經進入主流商業模型所在的中高分區間。

這意味著，SenseNova-U1-8B-MoT 的優勢主要體現在效率上：它沒有依賴更長的生成時間去換取性能，而是在低延遲條件下保持了較高的生成質量。相比一些得分更高但耗時達到 30 秒、70 秒甚至更久的商業模型，它更接近實際生產中需要的狀態，快速出圖、質量可用、響應穩定。

換句話說，如果只看最高分，GPT-Image-2.0、Nano Banana Pro 等模型仍然處在第一梯隊；但如果把速度也納入考量，SenseNova-U1-8B-MoT 的位置就變得非常突出。它用更短的時間完成了接近主流商業模型的生成效果，體現出很強的單位時間產出能力。

Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench

Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

結語

在 AI 領域，開源兩個字正在被嚴重稀釋。有的開源只是權重開放，卻不開放代碼；還有的干脆設了各種商用限制，開源不過是蹭熱度的說法。

商湯此次選擇將兩個參數模型全面開源，代碼托管于 GitHub，模型權重在 Hugging Face 平臺同步提供下載，完整技術報告也將在近期公布。

在當前多模態大模型格局下，開源一個在架構層面有實質創新、且跑通了理解 - 生成 - 統一路線的模型，意味著這套方法可以被學術界反復審視、被開發者社區持續打磨，同時也為產業伙伴提供了直接可用的基礎設施。

尤其是它的小身材、大能量、高效率，能幫助開發者即便在資源受限的環境下，也能享受高效率的能力，發揮越級的實力。

當整個行業都在追趕 GPT Image 2 的生圖質量時，商湯押注的是統一本身。而隨著全面開源的放出，這條路徑，現在屬于所有人。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.