作為Nano Banana邪修,
哪里有好用的圖像模型,哪里就有我的身影,
這次發動了面子果實,提前拿到了騰訊混元圖像3.0的內測!
![]()
hunyuan.tencent.com/image
長話短說,
混元圖像3.0是首個工業級原生多模態生圖模型,參數規模80B(又是值得我更新硬件的一天),是開源界又一個閃耀的星星啊星星。
現在混元官網已經可以用,后續也會在元寶中逐步上線!
懂得都懂啊,這年頭,光生圖已經不夠用了,
混元圖像3.0自帶世界知識,能推理后生成圖片,可以理解千字級別的復雜提示語,長文本文字和小文字都可以生成。
這聽起來不就是像是把Nano Banana開源了嗎?
我必須馬上來個對比,
真的沒有比這個更合適的了,能同時看到Nano Banana、GPT-4o和混元圖像3.0的效果對比,好不好一眼就知道,有沒有水分一秒就能看出來。
老規矩啊,這次的高清圖和提示語都整理好放文檔了,公眾號回復“混元3”就可以啦
熱知識,混元圖像3.0剛上線就可以限制尺寸,1:1、3:4、4:3、9:16、16:9,都是很實用的尺寸。
![]()
第一類我先考考混元圖像3.0的世界知識,首先我們需要知道什么是世界知識,
簡單來說,生圖模型的世界知識就是模型在大規模圖文訓練中學到的關于“這個世界怎樣運作”的常識與事實,用來在看不見或沒被嚴格描述的細節上做出合理補全與推理。
也就是說,當我沒把所有細節都說清楚時,模型仍然能給我“像真的一樣”的合理細節與布局,這部分能力就是它的世界知識。
而這一方面,我可以說混元圖像3.0目前做的是數一數二的好。
首先來個最簡單的,生成一個古代劍客的三視圖,這里混元需要了解兩個知識“什么是古代劍客”和“什么是三視圖”。很明顯,混元非常輕松的做到了,不僅正確的輸出了人物形象、做出了三個角度的展示、也保持了形象一致。而且我還能直接用混元3D做一個模型出來。
![]()

你可能以為這很簡單啊,現在生圖模型一般都能做得到吧,但當我把同樣的提示語丟給nano banana時,我得到的效果是這樣的,嗯,也算是三視圖吧,但有幾個正常人畫人物三視圖會畫一個俯視圖呢,這是反一般常識的,而且人物佩劍的方向也不一致。
![]()
難度再再上升一級!我直接開始來到學術領域,以往我在寫論文的時候,經常會因為想要圖解某些概念或者流程而苦惱到頭禿,這東西自己做真的太太太耗時了,不做呢文章又太單調不清晰,但現在混元圖像3.0可以幫我做了。
生成一張期刊風學術插圖:白底、黑灰主色,彩色僅用于層級(嵌入/多頭注意力/FFN/殘差/LayerNorm)。要求在圖中準確渲染以下中文標簽與箭頭:
「輸入序列」→「詞嵌入/位置編碼」→「編碼器層(多頭自注意力→加殘差→層歸一化→前饋網絡→加殘差→層歸一化)」→「解碼器層(掩碼自注意力→交叉注意力→前饋)」→「線性層/Softmax」。角注:超參數示例 d_model=768, heads=12;圖例清晰,字體無襯線
![]()
而且如此多的文字,混元依然能保持95%以上的文字穩定,同時讓所有的元素都在該在的位置上。這我甚至不需要和nano banana對比,畢竟它做不了中文。。。。。
為了驗證這張圖片的正確性,我特意讓Gemini評價了一下,可見混元圖像3.0的能力真的可以。
![]()
在這個基礎上,我甚至能完成一系列比如溫室效應解釋、植物光合作用演示、海洋水循環、火山內部構造和噴發原理以及條形磁鐵的磁場展示的科普圖片制作。
![]()
![]()
![]()
![]()
![]()
這個畫面的精細程度和文字的準確對應,將大大提高圖片的實用性,以后不管是給小朋友的科普或者是我們想要學習鞏固某些原理都可以用混元制作相關的圖片輔助我們學習和記憶。
那在如此強大的世界知識的支持下,混元圖像3.0對于提示語的理解和遵循能力自然也是強上又強,我直接來幾組和nano banana的對比。
(以下均為左圖混元圖像3.0,右圖nano banana)
同一盆花從早晨到夜晚的三連景:含苞→盛開→萎蔫;只有正午時有蝴蝶停駐。
![]()
這個主要測試的模型對于時態和狀態對應的理解和執行能力哦。一目了然,banana的花在早上沒有含苞而是直接開放了。
兩位登山者,前者在焦點上、后者虛化;前者穿黃夾克,后者紅帽子但不戴墨鏡
![]()
對于焦點和人物特征的展示,依然是混元圖像3.0展示得比較準確,banana對于否定詞的識別還需要增強。
水墨與現代極簡融合,留白大,遠山淡墨,中景亭臺小人點景,題跋落款。
![]()
提示語提到了“水墨和現代的融合”,很明顯混元的畫面中更具備“現代亭子”的極簡線條風格,甚至還能配出書法字體的題字,而banana就只是水墨而已。
畫五只鳥:有三只停在左側同一樹枝上,另外兩只在右側天空飛行,左側三只中恰有一只是紅色,其余灰色;天空透明漸變。
![]()
這張圖兩個模型都執行到位了,但在這個基礎上,我覺得混元圖像3.0的畫面精細度更高,不管是鳥還是樹枝都更漂亮。
那提到這,其實也能感受到目前混元圖像3.0的美學表現也還不錯,支持多種美學風格的呈現,能準確的傳達出不同風格的特點。
![]()
所以最后,我準備玩一個終終終極挑戰,將我們前面講到的世界知識和混元圖像3.0的長長長文本能力結合一起來,玩一組高難度的海報。
城市公共安全提示(多級標題 + 列表 + 地鐵圖例) 畫幅:1080×1920;明黃底 + 黑字高可讀;圖標統一。 主標題: 「臺風藍色預警|今夜至明晨」 重點提示(大字粗體): 「請減少外出,遠離海邊與低洼地帶」 分項清單(帶序號與圖標): 「1. 取消一切沿海戶外活動 2. 檢查門窗與陽臺固定物 3. 電動車停止戶外充電 4. 地鐵 2/5 號線末班車提前至 22:30」 應急電話橫條: 「市應急:12345|供電:95598|排水:12319」 小字提示: 「*如遇道路積水,請勿涉水行車;切勿在樹下、電線旁避雨。」 元素:警示三角徽章、地鐵圖例小卡、二維碼鏈接“實時路況”。
可以看到圖標和標識語精準對應,大小標題和文字內容都完美呈現出來了。
黑客松(賽題 + 時間軸 + 評審標準) 畫幅:1080×1920;霓虹賽博;矩陣網格。 標題: 「HACK?48 小時」 賽題方向: 「Agent 工具鏈|多模態搜索|隱私計算|小型端側模型」 時間軸: 「Day0 講解&組隊|Day1 開發|Day2 路演與頒獎」 評審標準(比例): 「技術難度 30%|產品價值 30%|體驗 20%|演示 20%」 獎勵: 「冠軍 ¥50,000 + 云資源|優秀獎 若干」 元素:像素徽章、倒計時角標、二維碼報名。
賽博風格展現的很完美,同時連48小時倒計時的角標都呈現出來了,這個理解能力真的不一般。
【世界遺產名錄·經典案例拼貼】 世界知識:UNESCO 世界遺產示例(長城、馬丘比丘、吉薩金字塔、雅典衛城等等9個世界遺產),注明國家與列入年份。 版式:A1橫式,等大小影像格網 3×3。文案: 標題:人類的共同記憶 注:本頁為示例拼貼,版權歸原作者/機構所有 字體:思源黑體(標題),思源宋體(說明)。 配色:象牙白底,金色分隔線。 主視覺:高質量剪影/貼圖(風格統一)。 印刷與導出:CMYK;出血 3mm;圖像分辨率≥300 dpi。 細節約束:國家名中英并列;年份緊靠項目名右側小號標注。
![]()
這是終終極case!我在提示語中只給舉出四個例子,需要混元圖像3.0自行補充全部9個世界遺產的名稱、所屬國家、列入年份等等關鍵信息,混元圖像3.0都一一做到了,這我能說啥,我只剩震驚了。
所以,我現在就在蹲蹲騰訊會不會連夜加班,
把圖生圖的功能做出來,
我假期想用啊啊啊啊啊,
挺急的。
@ 作者 / 卡爾 & 阿湯
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.