Nano Banana 2發(fā)布，圖像生成下半場比的是“世界知識”

2026-02-27 12:09:29　來源: 字母榜

北京舉報

分享至

進(jìn)入2026年以后，很少有人再提起圖像生成模型，行業(yè)內(nèi)的焦點(diǎn)全在agent身上。

圖像生成模型，似乎已經(jīng)成為“上一個時代”的故事。大多數(shù)從業(yè)者的共識是，圖像生成的技術(shù)路線已經(jīng)基本定型，剩下的只是工程優(yōu)化和成本控制。

國際調(diào)研機(jī)構(gòu)Fundamental Business Insights在《AI圖像生成器市場規(guī)模和份額預(yù)測》中提到，2024年全球市場規(guī)模為4.1024億美元，2025年為4.785億美元，2026年為5.4136億美元。

由此可見，圖像生成模型市場已然是一個成熟穩(wěn)定，且想象空間比較小的市場。

可就在這個節(jié)骨眼上，谷歌拿出了Nano Banana 2。

這是用同樣提示詞生成的圖片，可以看到，Nano Banana 2在呈現(xiàn)圖片的方式上，已經(jīng)和Nano Banana Pro呈現(xiàn)出了明顯的區(qū)別。

因為這不是那種簡單的版本迭代。

谷歌在發(fā)布當(dāng)天就宣布，這個新模型將立即取代之前的所有版本，成為 Gemini、谷歌搜索、AI Studio等所有產(chǎn)品中的默認(rèn)圖像生成模型，最讓人詫異的是，就連谷歌自己的AI編程工具Antigravity也對Nano Banana 2完成了接入。

為啥谷歌突然“All-in”？

在過去一段時間里，用戶一直面臨著一個兩難選擇，想生成4K分辨率的圖片就需要等很久，想立刻生成圖片，就只能找低分辨率的模型。

而Nano Banana 2又快又好。

谷歌認(rèn)為，在agent時代，圖像生成依然是一個值得重倉投入的戰(zhàn)場。

Nano Banana 2的特點(diǎn)都有什么？

Nano Banana 2最大的特點(diǎn)就是快，它能夠在4-6秒內(nèi)完成4K分辨率圖像的生成。

谷歌的Gemini系列一直維持著兩條產(chǎn)品線：Pro追求性能，F(xiàn)lash追求效率。

但將這套架構(gòu)遷移到圖像生成領(lǐng)域，并非簡單的模型壓縮。圖像生成的計算密集度遠(yuǎn)高于文本生成，一張2K分辨率的圖像包含的信息量，相當(dāng)于數(shù)千個文本token。

如何在不犧牲視覺質(zhì)量的前提下提升推理速度，這是一個工程難題。

Nano Banana 2的解決方案是采用了分層生成策略。

模型首先在較低分辨率下完成場景理解、構(gòu)圖規(guī)劃和物理關(guān)系推理，然后再通過高效的上采樣管道將圖像提升至2K甚至4K分辨率。

這種“先思考，后渲染”的流程，讓模型能夠在保持Pro級別的一致性和細(xì)節(jié)質(zhì)量時，降低計算成本。

除了速度，Nano Banana 2還引入了“世界知識”這個概念。

傳統(tǒng)的圖像生成模型，本質(zhì)上是一個強(qiáng)大的視覺模式匹配器。它們在海量圖像數(shù)據(jù)上訓(xùn)練，學(xué)會了“什么樣的畫面看起來真實”，但并不真正理解畫面中的物理規(guī)律、地理特征或文化背景。

比如說你要求生成“巴黎鐵塔在雨天的景象”，它可能生成一張看起來不錯的圖片，但鐵塔的結(jié)構(gòu)細(xì)節(jié)、巴黎特有的建筑風(fēng)格、雨天的光線特征，都可能是模糊或錯誤的。

Nano Banana 2的不同之處在于，它直接繼承了Gemini大語言模型的世界知識庫，并且能夠?qū)崟r調(diào)用谷歌圖像搜索作為“視覺參考庫”。

也就是說當(dāng)你要求生成某個真實地點(diǎn)的場景時，模型不僅知道這個地點(diǎn)的地理位置、氣候特征、建筑風(fēng)格，還能檢索相關(guān)的真實照片作為視覺基準(zhǔn)，從而生成更加準(zhǔn)確的圖像。

在谷歌的“Window Seat”演示中。它能夠根據(jù)用戶指定的任何地點(diǎn)和當(dāng)前的實時天氣數(shù)據(jù)，生成該地點(diǎn)窗外的逼真景觀。

舉個例子，《哈利波特》中通往霍格沃茨的9?站臺位于英國的國王十字車站（King's Cross station）。在Window Seat中輸入對應(yīng)車站，窗戶的樣式輸入溫馨咖啡館，外面的天氣指定為瓢潑大雨，Nano Banana 2就會生成以下一幕。

把“世界知識”注入到Nano Banana 2里，其實就是將大語言模型的推理能力與圖像生成的渲染能力結(jié)合起來的產(chǎn)物。

模型在生成圖像之前，會先進(jìn)行一次“語義推理”，理解提示詞中涉及的真實世界概念，然后再將這些概念轉(zhuǎn)化為視覺元素。

在圖像生成領(lǐng)域，文字渲染一直是一個公認(rèn)的難題。無論是Stable Diffusion、Midjourney還是早期的DALL-E，生成的圖像中如果包含文字，往往會出現(xiàn)字母錯位、拼寫錯誤、字體混亂等問題。

這個問題的根源在于，傳統(tǒng)的擴(kuò)散模型將文字視為視覺紋理的一部分，而不是具有語義結(jié)構(gòu)的符號系統(tǒng)。

Nano Banana 2在文字渲染上取得了顯著進(jìn)步。根據(jù)官方說明，這一代模型能夠“更可靠地渲染文字”，支持多語言文本，并且能夠保持字體的清晰度和風(fēng)格一致性。

這個能力的提升，來自于模型對文字的“雙重理解”。Nano Banana 2既通過Gemini的語言模型能力，理解了文字本身的語義內(nèi)容，也通過圖像生成的渲染能力理解文字的視覺呈現(xiàn)規(guī)律。

我讓Nano Banana 2設(shè)計了一個“字母AI”的Logo，它就能很好展示出每一個字，并且還用電路板這個視覺元素來強(qiáng)化AI的概念。

Nano Banana 2背后的技術(shù)是什么？

Nano Banana 2 的另一個重要特性，是它的“對話式編輯”能力。這的確不是一個新概念，但實際用起來效果要比以往好很多。

Nano Banana 2現(xiàn)在能夠做到，完全使用對話來進(jìn)行圖片編輯，比如“把背景換成日落”、“把這個人的衣服改成藍(lán)色”、“去掉左邊的那棵樹”。

這種交互方式的關(guān)鍵，在于模型能夠在多輪對話中保持對圖像的“記憶”。當(dāng)你在第三輪對話中說“把剛才那個藍(lán)色衣服改回紅色”時，模型需要知道“剛才那個藍(lán)色衣服”指的是第二輪編輯中被改成藍(lán)色的那件衣服。

這種上下文追蹤能力，叫做“思維簽名”(Thought Signatures）。

簡單來說，當(dāng)模型生成圖像時，它內(nèi)部會進(jìn)行一系列思考，思維簽名就是每一步思考的標(biāo)簽。在多輪對話編輯圖像時，你把上一輪的思維簽名傳回給模型，它就能記住之前的構(gòu)圖邏輯、光影關(guān)系和設(shè)計意圖，從而實現(xiàn)連貫的局部修改—。

當(dāng)你要求對已有圖片進(jìn)行修改時，那么模型就會用思維簽名來理解原始圖像的整體結(jié)構(gòu)，做出合理的調(diào)整而不破壞畫面的一致性。

前文提到的一致性，是目前圖像生成模型最大的難題之一。

Nano Banana 2支持最多14張參考圖像的混合使用，其中可以包括最多5張人物角色圖像和最多6張物體圖像。

模型能夠從這些參考圖像中提取視覺特征，并在新生成的圖像中保持這些特征的一致性。

比如Nano Banana 2官方發(fā)的圖片，將一個香蕉和恐龍玩偶結(jié)合，就得到了一個以香蕉當(dāng)作身體的恐龍玩偶。

以及，我們不妨來看看Nano Banana 2和GPT的對比，同樣的提示詞下，GPT帶有明顯的AI生成感。Nano Banana 2生成的圖片更真實一些。

GPT：

Nano Banana 2：

同時，Nano Banana官方還放出了一些由Nano Banana 2生成的超長圖片。

相較于其他模型，Nano Banana 2的優(yōu)勢是什么？

Nano Banana 2是一個非常均衡的圖片生成模型，它又有速度，又有質(zhì)量，關(guān)鍵還便宜。

根據(jù)谷歌官方給出的信息，Nano Banana 2生成1k圖的價格大約為0.067美元，相當(dāng)于不到5毛錢。2K圖片為0.1美元，約7毛錢。4K圖片為0.15美元，大約1塊錢。這個價格比Nano Banana Pro便宜很多。

Pro版本的優(yōu)勢在于極致的復(fù)雜場景把控、超寫實光影渲染和小眾藝術(shù)風(fēng)格還原，適合專業(yè)視覺設(shè)計師、影視概念設(shè)計師等對畫質(zhì)有極致要求的用戶。

Nano Banana 2用畫質(zhì)上限的稍許讓步，換來了顯著的效率提升。Nano Banana 2的定價更符合普通創(chuàng)作者，以及那些需要快速迭代、大批量生成的實際業(yè)務(wù)需求。

Midjourney依然是藝術(shù)創(chuàng)作的天花板。它的審美上限和風(fēng)格化能力在行業(yè)內(nèi)無人能及，特別是在生成具有電影質(zhì)感、繪畫筆觸的藝術(shù)作品方面表現(xiàn)出色。

V7版本的生成速度約為20秒/張，在復(fù)雜場景下可能更長。

但Midjourney的短板也極其明顯，它沒有對話式編輯功能，無法精準(zhǔn)控制真實世界元素（如特定地點(diǎn)的準(zhǔn)確建筑風(fēng)格、實時天氣條件）, API開放度極低，且主要通過Discord 界面操作，不適合企業(yè)級集成。

此前，在一項包含50多個提示詞的對比測試中，Nano Banana Pro的生成速度是Midjourney的10倍以上，Nano Banana 2只會更快。

另外一大圖像生成模型就是Stable Diffusion 3。它的優(yōu)勢是開源、可本地部署、自定義程度高，這對于有技術(shù)能力和數(shù)據(jù)隱私需求的開發(fā)者來說是重要優(yōu)勢。

它還支持LoRA微調(diào)、ControlNet等高級控制功能，可以針對特定需求進(jìn)行深度定制。可以說，只要你技術(shù)能力夠高，那么Stable Diffusion 3絕對是最好的選擇。

但Stable Diffusion 3，需要配置本地環(huán)境、理解復(fù)雜的參數(shù)設(shè)置、自行優(yōu)化提示詞。

而且在原生能力方面，Stable Diffusion 3的文字渲染準(zhǔn)確度在學(xué)術(shù)評測中得分僅為1.25-1.95（滿分 5 分），遠(yuǎn)低于Nano Banana 2。

此外，它的生成速度、事實準(zhǔn)確性、對話式編輯能力也全面落后于Nano Banana 2。

當(dāng)然，Nano Banana 2并非完美無缺。在極致的藝術(shù)風(fēng)格化創(chuàng)作、超復(fù)雜場景的光影渲染上，它和Nano Banana Pro以及Midjourney這樣的產(chǎn)品，依然存在差距。

在多輪對話編輯方面，雖然模型支持最多5個角色的一致性維護(hù)，但在一些特定的場景，仍然會出現(xiàn)細(xì)微變化。而當(dāng)對話進(jìn)行多輪次后，這些細(xì)微的變化也會累積在一起。

同時，對于小眾冷門的地點(diǎn)、物體，“世界知識”的效果也會有所折扣。

但不可否認(rèn)的是，Nano Banana 2給整個文生圖行業(yè)帶來新的啟示，未來的AI圖像生成，不再是單純的“紋理匹配”，而是“大語言模型推理能力 + 視覺渲染能力 + 檢索增強(qiáng)事實準(zhǔn)確性”的深度融合。

文生圖工具終將從“畫畫的機(jī)器”，變成真正懂需求、懂世界的視覺創(chuàng)作助手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

諜戰(zhàn)劇男人的一句問候話，竟讓女臥底驚出一身冷汗

低聲不下氣 2026-02-25 04:42:51
0 跟貼 0
楊植麟暫時挺過風(fēng)暴

虎嗅APP 2026-02-27 17:11:06
2 跟貼 2

PosterGen：告別學(xué)術(shù)海報制作煩惱，從PDF生成可編輯PPTX學(xué)術(shù)海報

機(jī)器之心Pro 2025-09-04 18:05:43
0 跟貼 0

看黑衣更優(yōu)秀，衣服就是沒有光影對比！

古德拜街拍 2026-02-25 16:47:53
0 跟貼 0
AlphaEvolve再進(jìn)化！DeepMind用AI「養(yǎng)殖」算法，碾壓所有人類設(shè)計

新智元 2026-02-27 17:10:23
16 跟貼 16

別以為這是畫畫，其實你每天都在看

安安海外視頻精選 2026-02-25 22:09:00
0 跟貼 0

《寶可夢：風(fēng)/波》畫面表現(xiàn)引期待：光影效果突出！

3DM游戲 2026-02-28 10:38:57
0 跟貼 0
中科大華為諾亞TAPPA：時序視角的統(tǒng)一解釋框架

機(jī)器之心Pro 2026-02-28 14:29:50
0 跟貼 0

再攜手!清華陳建宇×斯坦福Chelsea團(tuán)隊VLAW,世界模型×VLA協(xié)同進(jìn)化

機(jī)器之心Pro 2026-02-28 14:26:41
0 跟貼 0
全景視覺的Depth Anything來了！

機(jī)器之心Pro 2025-12-29 16:54:58
0 跟貼 0
仿真落地三難點(diǎn)：物理、視覺、交互

量子位 2025-12-12 04:34:09
0 跟貼 0
男子撒謊去走親戚，連夜驅(qū)車700公里接孩子

江西晨報 2026-02-28 04:23:27
94 跟貼 94
半兩財經(jīng)丨中央廣播電視塔元宵亮燈，光影璀璨啟新程

北青網(wǎng)-北京青年報 2026-02-28 11:22:06
0 跟貼 0
河北陽原：遠(yuǎn)古文明留印記新春光影醉游人

人民資訊 2026-02-28 08:47:09
0 跟貼 0
印軍特種兵靜默前行，光影運(yùn)用如同動作大片

裝甲鏟史官 2026-02-02 11:14:53
0 跟貼 0
獨(dú)家聚焦——春節(jié)檔后的光影大餐

電影頻道融媒體中心 2026-02-28 09:38:07
0 跟貼 0
閔行公益電影展映排片表出爐，家門口解鎖科學(xué)之旅！（附3月排片）

上海閔行 2026-02-28 14:29:32
0 跟貼 0
“手機(jī)將全面漲價”沖上熱搜

南方都市報 2026-02-27 14:31:12
20650 跟貼 20650
站在花雞坡上，就能俯瞰三峽大壩全景的最佳免費(fèi)觀景臺網(wǎng)友：這視覺效果簡直了

營天下 2026-02-26 18:27:11
252 跟貼 252
黑人男友的恐怖，受教了，思想完全不在一個界面，可憐女人！

小跑溜娃 2026-02-25 00:57:42
0 跟貼 0
1億用戶、80%暴跌：全球最大在線白板公司的自救

虎嗅APP 2026-02-28 03:55:10
2 跟貼 2
夜間氣溫達(dá)零下30℃ 烏總統(tǒng)：烏面臨幾十年來最難冬天

紅星新聞 2026-02-27 17:33:09
10844 跟貼 10844
前面寫的間距太大，后面只能擠一擠了，字體布局有他自己的道理！

段子流星雨 2026-02-25 09:49:54
1 跟貼 1
極氪公布春節(jié)十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報 2026-02-26 12:29:41
15583 跟貼 15583
網(wǎng)傳新能源汽車開征“里程稅”10省市試點(diǎn) 多地回應(yīng)

封面新聞 2026-02-27 19:17:03
9054 跟貼 9054
預(yù)測下一個像素還需要幾年？谷歌：五年夠了

機(jī)器之心Pro 2025-11-26 15:48:35
0 跟貼 0
奔馳車主用滾動字體，提醒高速不要龜速車，網(wǎng)友：話糙理不糙！

搞笑小爬爬 2026-02-27 14:50:12
1 跟貼 1
Snapchat提出Canvas-to-Image：一張畫布集成 ID、姿態(tài)與布局

機(jī)器之心Pro 2025-12-09 14:14:17
0 跟貼 0
70年日系電視王朝，正式“謝幕”：索尼松下把家底交給了中國

雷科技 2026-02-28 12:16:00
10 跟貼 10
猛！三月新機(jī)大亂斗，哪臺才是你的菜？

雷科技 2026-02-28 10:42:21
3 跟貼 3
20萬以內(nèi)買油車還是電車，啥都不用看，只說一點(diǎn)邏輯你就懂了

領(lǐng)笑之家 2026-02-27 16:54:58
4 跟貼 4
“大牌”鞋子的打包過程，全是廉價的包裝和粗糙的字體，網(wǎng)友：最大的成本就是包裝

蓬勃資訊 2026-02-27 13:29:31
1 跟貼 1
男子發(fā)現(xiàn)燒紙桶里有垃圾，立馬給外地人科普這不是垃圾桶，網(wǎng)友：這是跨界面轉(zhuǎn)賬器

都市觀察 2026-02-25 18:26:08
0 跟貼 0
商務(wù)部：調(diào)整對加拿大反歧視措施

界面新聞 2026-02-27 16:42:51
756 跟貼 756
又一國產(chǎn)全模態(tài)視頻大模型殺入Artificial Analysis榜單Top 2

機(jī)器之心Pro 2026-02-27 14:42:39
0 跟貼 0
瓷藝的巔峰狂想，視覺與心靈盛宴，天津自駕游（二）

天涯筆談 2026-02-26 13:12:48
6 跟貼 6
多模態(tài)檢索新突破，用軟標(biāo)簽打破傳統(tǒng)剛性映射約束，全面超越CLIP

量子位 2025-11-15 13:18:07
0 跟貼 0
年前100多元一斤，年后價格腰斬！有湖北人已迫不及待下單

環(huán)球網(wǎng)資訊 2026-02-27 09:52:19
526 跟貼 526
網(wǎng)友在鏡子上寫毛筆字，一筆一劃仔細(xì)又認(rèn)真，網(wǎng)友：這個字體好有感覺啊

鶴壁焦點(diǎn) 2026-02-26 19:20:57
0 跟貼 0
“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
109 跟貼 109

字母榜

讓未來不止于大。

2254文章數(shù) 8044關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

房產(chǎn)

健康

數(shù)碼

軍事航空

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Nano Banana 2發(fā)布，圖像生成下半場比的是“世界知識”

Alphacool推出Core 70 Tube分體水水箱：玻璃材質(zhì)，集成水泵

最高領(lǐng)袖辦公室附近遭襲 媒體：伊朗領(lǐng)導(dǎo)體系仍具韌性

最高領(lǐng)袖辦公室附近遭襲 媒體：伊朗領(lǐng)導(dǎo)體系仍具韌性

球隊主力全報銷？頂風(fēng)擺爛演都不演了

疑似王一博被爆私密聊天記錄

沈明高提共富建議 百姓持科技股國家兜底

狂攬1100億美元！OpenAI再創(chuàng)融資神話

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

《無主之地4》新DLC發(fā)布 新強(qiáng)敵與超珍戰(zhàn)利品登場

濱江九小也來了！集齊海僑北+哈羅、寰島...江東教育要炸了！

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

海信RGB-Mini LED電視UX 2026款3月5日發(fā)布

新華社：美國伊朗要打了嗎

最高領(lǐng)袖辦公室附近遭襲媒體：伊朗領(lǐng)導(dǎo)體系仍具韌性

最高領(lǐng)袖辦公室附近遭襲媒體：伊朗領(lǐng)導(dǎo)體系仍具韌性

沈明高提共富建議百姓持科技股國家兜底

嵐圖泰山黑武士版3月上市搭載華為四激光智駕方案

《無主之地4》新DLC發(fā)布新強(qiáng)敵與超珍戰(zhàn)利品登場