![]()
機器之心編輯部
就在每次大家剛摸熟玩法時,新花樣又來了。
最近,全網集體上頭的是 OpenAI 發布的 GPT Image 2。它不只會生成好看的圖片,更是把「信息圖生成」帶火了:知識卡片、數據圖解、攻略長圖、科普海報…… 只要一句話,就能生成一張排版精致、信息清晰、質感在線的圖片。這波出圈速度,絲毫不亞于當年的吉卜力風格刷屏。
但對于國內用戶來說,想體驗 GPT Image 2 還是有些難度的。那有沒有一個更低門檻、更適合國內用戶的選擇?
好巧,還真有。
剛剛,我們發現了一款國產開源模型,正好踩中了這個需求 —— 來自商湯的日日新 SenseNova U1 系列原生理解生成統一模型
那些超大參數模型的玩法,它都能做,以前特別費腦、費時間的內容,現在只需要把需求說清楚,它就能自動完成信息整理、版式設計和視覺呈現,直接給你「看起來很專業」的成品圖。
而且它完全開源,也不受次數束縛。
就像這樣:
![]()
![]()
SenseNova U1 不只是會「畫圖」,它采用了NEO-unify 理解生成統一的全新架構,能夠真正讓語言和視覺信息協同。所以它只需8B 的小參數,就能實現很多商業閉源模型同樣的效果,效率拉滿。
由于能夠把視覺信息直接納入思考鏈路中,它還在行業首創了連續性圖文創作輸出的模式。
另外,值得說明的是,商湯這次開源的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite,包含SenseNova-U1-8B-MoTSenseNova-U1-A3B-MoT兩個版本。
- GitHub:https://github.com/OpenSenseNova/SenseNova-U1
- Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
雖然身板小,但它在多個測評維度上性能領先。
在圖像理解與生成基準測試中,SenseNova-U1-8B-MoT 的表現相當亮眼。雖然它只是 8B 級模型,但在通用理解、空間理解等多個測試中都取得了領先成績,甚至超過了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大規模模型。簡單說,SenseNova-U1-8B-MoT 并不是靠堆參數取勝,而是在較小體量下做出了更高效的多模態理解能力。
![]()
在圖像生成基準測試上,SenseNova U1 Lite 在信息圖生成(Infographics)的其中一項拿到了 39.8 的高分,領先 Qwen-Image 等模型。這說明在處理高難度、高密度信息轉化為圖表時,SenseNova U1 具備行業領先的邏輯重組能力。
在文字渲染(Text Rendering)這一維度下,SenseNova U1 Lite 的成績幾乎全面領先。AI 生圖最怕文字崩壞,這一測試結果證明了 SenseNova U1 Lite 在視覺化文字上的精準度。
![]()
視覺推理是 AI 最容易「翻車」的地方,因為它要求模型不僅要看懂圖像,還要進行復雜的邏輯推理。SenseNova U1 (VBVR (UMM) 得分)拿到了 60.5 的高分,超過對比模型(如 Nano-Banana 的 49.6)。這意味著在處理復雜的視覺關系推理時,它比同類模型表現得更加「聰明」。
在 WISE 維度上取得了 69.0 的優異成績,領先于 Qwen-Image(63.0)以及其他一眾模型。這表明在執行基于人類意圖的視覺修改時,它對「指令」的解析與「像素」的操控結合得更加緊密。
GEdit-Bench 得分 7.47,在同量級開源模型中處于頂尖位置,甚至優于一些參數規模更大的閉源替代方案。
![]()
實測后發現,這才是你急需的提效利器
光看榜單當然不過癮。
SenseNova U1 Lite 在業內首個實現連續性的圖文創作輸出
傳統模型的工作方式是:先用文字把問題想清楚,再調用外部工具把圖生出來,這是兩個步驟,兩套系統,中間還有中間商負責牽線。SenseNova U1 Lite 打破的,正是這道墻,它能在同一套推理過程中,讓圖像和文字同步生長,示意圖、流程圖、草圖,在它推理的同時就已經出現了,而不是等推理結束后再配上去。
我們來看幾個實際效果。
讓它生成一幅小白兔和大灰狼的故事連環畫。
從結果可以看出,SenseNova U1 Lite 可以一邊推進故事情節,一邊同步生成對應場景的插圖,圖和文本來自同一套思維過程,邏輯連貫、風格統一。
![]()
![]()
想學習電影運鏡,也可以向 SenseNova U1 Lite 提問,它會把文字解釋和視覺圖同步給你,并且保持人物角色的高度一致性。這比單純的文字教程好懂得多,也比純圖示來得有邏輯。
![]()
這種帶圖思考的能力,正是 SenseNova U1 的原生圖文理解生成能力。它能把圖像與文本從底層進行融合,實現高效、連貫的思考和圖文交錯輸出。不但效率高,也更接近人類的理解與表達模式。
我們還用 SenseNova U1 Lite 嘗試了復雜高密度信息圖(infographic)的生成
信息圖要解決的是一個真實的表達困境:一篇論文、一份研報、一個操作流程、一個知識點,原始形態往往密度過高、結構不清,大多數人看到就想關掉。而一張好的信息圖,能把同樣的內容重新組織,讓讀者在幾秒鐘內抓住核心。
首先,我們讓模型生成了一張適合可愛女生的短發造型信息圖,SenseNova U1 Lite 完成度依然在線。
![]()
在接下來的案例中,SenseNova U1 Lite 生成的占星術與塔羅牌占卜圖片風格華麗,充滿了神秘主義元素,如果你對星座感興趣,不放也試著做一份屬于自己的星座圖。
![]()
讀不下去的論文,交給它。
最近,谷歌 DeepMind 發布了一篇頗受關注的論文《Image Generators are Generalist Vision Learners》,內容密度高,需要反復閱讀才能理清脈絡。我們把摘要丟給 SenseNova U1 Lite,讓它生成一份圖解。它不只是把文字重新排了一遍,而是真正提取出了論文的核心主張、方法邏輯和關鍵結論,用更直觀的視覺結構把這些內容呈現出來,讓一篇需要沉下心來讀的學術文章,變得可以快速上手。
![]()
論文地址:https://arxiv.org/abs/2604.20329v1
接著,我們又換了一個完全不同的題材:讓模型生成一張「武俠江湖禁忌」信息圖。
這類內容看似輕松,其實很考驗模型的結構化表達能力。因為它既要有江湖味,又要讓讀者一眼看懂規則。
SenseNova U1 Lite 的完成效果依然很有意思。它把江湖禁忌拆成了幾個清晰板塊:比如勿偷學武功,勿背后放冷箭暗器等。
![]()
金庸江湖生存指南:
![]()
接下來,我們又讓模型生成了一張「檸檬的萬能指南」信息圖。SenseNova U1 Lite 的處理方式比較聰明。它把檸檬的用途拆成了幾個清晰模塊:烹飪、家居清潔、心身療愈。
![]()
生成詹姆斯 · 喬治 · 弗雷澤名著「金枝」(The Golden Bough)信息圖:
![]()
刺繡入門指南:
![]()
城市明信片:
![]()
從以上結果可以看出,對于高信息密度場景,SenseNova U1 Lite 處理起來相當游刃有余。
高效統一架構,讓小模型跑出大模型效果
看完這些效果,一個問題自然會浮現:它為什么能做到這些?
過去,多模態 AI 幾乎被一個固定范式所統治:視覺編碼器負責感知理解,把圖像壓縮成特征向量喂給語言模型;變分自編碼器負責生成圖像,把語言模型的意圖解碼成像素。兩套系統各司其職,看似分工明確,卻在理解與生成之間埋下了一道天然的斷層。
問題出在壓縮這個動作上。視覺編碼器把圖像變成特征向量,本質是一次有損的信息篩選,它預先決定了哪些視覺細節值得保留、哪些可以舍棄。而這個決定,早在模型真正開始思考之前就已經做完了。生成側同樣如此:解碼器只能從語言模型的理解結果中重建圖像,而不是從原始像素出發。兩端都在用二手信息工作,斷層由此而來。
這種路線并不是沒有價值。相反,它是過去幾年多模態模型快速發展的重要基礎。但它的問題也很明顯:每多經過一個模塊,信息就多一次轉換;每多一次轉換,就可能帶來一次損耗。尤其是圖像這種信息密度很高的模態,一旦被過度壓縮,細節、空間關系、局部結構都可能被弱化。到了生成階段,模型再想把這些信息完整還原出來,就會變得更困難。
這也是為什么很多多模態模型會出現一種割裂感:它可能能說清楚圖里有什么,卻不一定能準確畫出復雜結構;它可能能生成一張好看的圖片,卻不一定真正理解文字里的邏輯關系;它也可能能完成單張圖生成,但一旦要求連續輸出多張風格一致、邏輯連貫的圖文內容,就容易出現前后不一致、細節漂移、版式混亂等問題。
SenseNova U1 Lite 的答案,是一套叫做 NEO-Unify 的原生多模態架構,解決這種理解和生成之間的斷層
其思路是把這些原本分開的環節盡可能收攏到一個統一架構里。它不再把視覺和語言當成兩個需要互相翻譯的系統,而是讓圖像信息和文本信息在同一個內部空間中共同參與計算。這樣一來,模型處理圖文任務時,不需要在看圖系統、語言系統、生成系統之間來回傳遞,而是可以在同一套模型內部完成感知、理解、推理和表達。
這樣做帶來的第一個好處,是信息路徑更短。
傳統架構里,模型完成一次復雜圖文任務,可能要經歷看圖 — 理解 — 規劃 — 生成 — 修正等多個階段,而且每個階段之間都存在對齊成本。SenseNova U1 Lite 的統一架構則更像是把這些環節壓縮進同一個大腦里,讓模型可以一邊理解內容,一邊組織畫面,一邊保持語義和視覺的一致性。少了中間轉譯,模型就能把更多計算用于真正的理解和生成,而不是消耗在模塊之間的銜接上。
第二個好處,是效率更高。
通過架構上的統一,減少不必要的信息損耗和流程開銷,讓較小規模的模型也能釋放出更高的有效能力。
這也是 SenseNova-U1-8B-MoT 值得單獨拿出來看的原因。8B 級別的模型規模并不算大,但它在圖像生成、圖像編輯、復雜信息圖、視覺推理等任務中,能夠接近甚至追上部分大型商業模型。背后的關鍵,并不是簡單小參數逆襲大模型,而是統一架構讓計算利用率更高,模型不需要花太多能力去彌補模塊割裂帶來的損耗。
這可以通過一些實驗結果來說明:
如下圖所示,SenseNova-U1-8B-MoT 位于相當靠左的位置,延遲大約只有 15 秒 / 2K 圖,是所有對比模型中生成速度最突出的一個。同時,它的平均得分接近 67 分,已經進入主流商業模型所在的中高分區間。
這意味著,SenseNova-U1-8B-MoT 的優勢主要體現在效率上:它沒有依賴更長的生成時間去換取性能,而是在低延遲條件下保持了較高的生成質量。相比一些得分更高但耗時達到 30 秒、70 秒甚至更久的商業模型,它更接近實際生產中需要的狀態,快速出圖、質量可用、響應穩定。
換句話說,如果只看最高分,GPT-Image-2.0、Nano Banana Pro 等模型仍然處在第一梯隊;但如果把速度也納入考量,SenseNova-U1-8B-MoT 的位置就變得非常突出。它用更短的時間完成了接近主流商業模型的生成效果,體現出很強的單位時間產出能力。
![]()
Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench
![]()
Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench
結語
在 AI 領域,開源兩個字正在被嚴重稀釋。有的開源只是權重開放,卻不開放代碼;還有的干脆設了各種商用限制,開源不過是蹭熱度的說法。
商湯此次選擇將兩個參數模型全面開源,代碼托管于 GitHub,模型權重在 Hugging Face 平臺同步提供下載,完整技術報告也將在近期公布。
在當前多模態大模型格局下,開源一個在架構層面有實質創新、且跑通了理解 - 生成 - 統一路線的模型,意味著這套方法可以被學術界反復審視、被開發者社區持續打磨,同時也為產業伙伴提供了直接可用的基礎設施。
尤其是它的小身材、大能量、高效率,能幫助開發者即便在資源受限的環境下,也能享受高效率的能力,發揮越級的實力。
當整個行業都在追趕 GPT Image 2 的生圖質量時,商湯押注的是統一本身。而隨著全面開源的放出,這條路徑,現在屬于所有人。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.