網易首頁 > 網易號 > 正文申請入駐

Nano Banana爆火背后，深聊谷歌多模態五大主線布局

2025-09-10 10:42:49　來源: 硅谷101

上海舉報

分享至

撰稿｜張珺玥

編輯｜陳茜

幾周前，這個頂著神秘“香蕉”代號的模型在評測平臺上悄然登場，沒有任何公告、沒有官方文檔，但卻憑借著驚人的圖像質量和角色一致性，憑實力吊打了一票老牌模型，在AI社區里引發轟動。

當時，有人猜它是OpenAI的秘密實驗品，也有人認為可能是獨立研究團隊的“黑馬之作”。而8月底，謎底終于揭曉，Google親自下場認領：Nano Banana，就是Google最新發布的文生圖模型——Gemini 2.5 Flash Image。

作為Gemini 2.0 Flash的升級版，Nano Banana是一個更加貼近真實工作流的AI編輯器。它不僅能在多次編輯中保持角色和畫面的高度一致，還讓用戶只需用自然語言就能完成精細的局部修改和多圖合成。

相比過去大部分模型“生成一張好圖”的目標，Nano Banana則更像是一個隨時待命的設計助手，能夠幫你不斷去迭代、調整、優化、創造。

大量網友們在測試完后之后都表示，這可能是Photoshop時代的終結。

那么，在已經嚴重內卷的文生圖模型賽道，Nano Banana憑什么能再次掀起一陣狂潮？相比OpenAI、Flux這些強勁對手，它有什么特別之處，真實的效果到底如何？Google的多模態能力如今又究竟發展到什么程度了呢？

（本文為視頻改寫，歡迎大家收看以下視頻）

“橫空出世”的Nano Banana

在Nano?Banana還沒被Google正式認領之前，它匿名登場于目前全球最火、最權威的大模型測評平臺LMArena。這是一個以社區投票為主導的AI模型競技場，主要形式就是讓兩個模型匿名對戰，用戶“盲選”出自己更滿意的結果，網站再根據社區用戶的投票基于一系列算法來對各家模型進行排名。

大約在8月中旬左右，大家開始注意到，在LMArena的文生圖和圖片編輯榜單上突然出現了一個陌生而神秘的模型代號——Nano Banana，并且在之后幾天內憑借著超極穩定和驚艷的輸出在排行榜上迅速躥升，最后穩坐榜首。

一時間，Nano?Banana的名字迅速傳開，并引發了大量的關注與討論。大家都在猜測，這個神秘的模型，究竟是誰的手筆？

就在關于Nano Banana的討論進入白熱化的時候，8月25日前后，包括DeepMind CEO Demis Hassabis等在內的谷歌工程高管開始在社交平臺上“暗戳戳”地發帶有香蕉元素的帖子，讓懸念逐漸落地。

而就在Gemini 2.5 Flash Image被正式官宣發布前，谷歌CEO Pichai更是連發了3根香蕉宣誓了對Nano Banana的“主權”。

上一次文生圖模型如此熱鬧的場面，還要追溯到幾個月前GPT-4o的吉卜力熱潮，這次的Nano Banana究竟好在哪里？

我們采訪了一些開發者，大家都首先表示，Nano Banana此次最大的一個突破就是它的“一致性”能力。

張宋揚亞馬遜AGI部門Applied Scientist：我覺得最驚艷的就是它在角色的一致性上做得效果非常好，相比之前的模型，這應該是做得最好的一個。

Nathan Wang 硅谷101特邀研究員 Agent資深開發者：我覺得Nano Banana讓我覺得比較震撼的地方，就是它的一次生成成功，保持這種一致性，包括它的可編輯性是讓我很驚訝的地方。

過去，很多模型在對圖片進行反復修改時，最常見的問題就是“換了衣服，人也變了臉”。比如你想把照片里的外套換個顏色，結果系統順手把五官也拉歪了。這種“不夠像”的小偏差，讓人很難把AI當作可靠的創作工具。

而Nano Banana的改進之處就在于，它能在多輪編輯中牢牢鎖住人物或物體的核心特征，不論是調整姿勢、換服裝，還是把狗狗放進新的背景里，主體能夠始終保持不變。

第二個大的突破在于多圖融合。過去把兩張完全不同的照片合成在一起，常見問題包括不同圖像間的不協調、空間扭曲、細節丟失或變形等等，人在場景里往往看起來都像是被“貼上去的”。而Nano Banana能夠在多圖合成時自動處理風格和邏輯一致性，讓畫面看上去渾然一體。

第三個亮點是自然語言驅動的精準修改。以前想要改動一張照片，往往要自己畫蒙版、或者用專業工具反復擦拭。現在，你只需要簡單的描述：“換一個背景”、“從照片中移除整個人物”、“改變人物的姿勢”……Nano Banana 就能在其他部分保持不變的前提下，精準執行用戶的要求，將圖片編輯的操作門檻幾乎降到零。甚至，你都可以不使用語言跟它交流，隨手畫個簡筆畫都可以。

此外，它還加入了多輪對話式編輯和風格混配。你可以先讓它把房間刷成薄荷綠，再補上書架、換個地毯，模型會一步步記住上下文，不會把之前的成果推翻。甚至，你還可以要求它把花瓣的紋理應用到鞋子上，蝴蝶翅膀的圖案變成一條裙子，生成一種全新的創意風格。

當然，安全性也被擺在了前面。Google給所有Nano Banana生成的圖片加上了可見水印，同時還有肉眼不可見的數字水印SynthID，以保證未來能識別和追溯AI作品。

在Nano Banana正式發布之后，背后的DeepMind團隊也首次走到臺前，講述了這款模型背后的研發故事。

團隊介紹說，Nano Banana最核心的突破，是使用了一種叫做“交替生成” 的圖像生成的新范式。它會把用戶的復雜指令拆分成多個步驟，每一步只做一個小調整，比如先換衣服，再改背景，然后再加寵物。

這樣的方式，可以讓AI編輯不再“失憶“性的一次性亂改，而是帶著每一輪修改的”記憶“，從而保持主體的一致性。

研發人員還透露，Nano Banana之所以能在創意場景里表現得更自然，是因為它充分利用了Gemini的世界知識。此次，Gemini團隊和Imagen強強聯合，Gemini團隊帶來了語言理解和世界知識的能力，讓模型能聽懂復雜的指令；而Imagen團隊則提供了高質量圖像生成和風格控制的經驗。

兩者結合，讓Nano Banana不僅能畫，還能理解邏輯和語義，讓模型在“理解—創造—理解”的循環中表現全面。

對于Nano Banana未來發展方向，DeepMind的研究員表示，他們希望Nano Banana并不只是一個“生成圖片”的模型，而是能夠成為一個可靠的、能夠陪伴用戶進行思考和創作的智能體。

根據LMArena的匿名測評結果以及谷歌公布的測試數據來看，此次的Gemini 2.5 Flash Image基本上全方位碾壓了ChatGPT 4o、FLUX Kontext、QWEN Image Edit等競爭對手。而且其生成成本更是讓人驚掉下巴，單張圖像的生成成本僅需0.039美元，也就是不到3毛人民幣。

Nano Banana的真實效果真的有這么好嗎？

Nano Banana的實力與反饋

目前，普通用戶都可以在Google Gemini應用程序、Google AI Studio中直接調用Nano Banana，也可以使用Gemini API和Vertex AI平臺，而Adobe、Lovart等平臺也陸續宣布已經將其集成進創意工具中。

這些渠道的開放，使得普通用戶、專業設計人士和開發者都能輕松訪問。

尤其值得注意的是，用戶不僅可以免費用，跟之前很多模型的龜速出圖不同，這次Nano Banana的生成速度也非常得快，輸入指令后，大約幾秒鐘就能完成出圖或者修改。也因為這樣便捷、高效的操作，網友們可以說是已經“玩瘋了”。

首先，大家幾乎都對Nano Banana的“人物一致性效果”感到驚艷。給一張普通的游客照換個背景、換個衣服，假裝自己在球賽現場，動動手指，幾秒搞定。影棚里的側面照變成正臉證件照，發型、造型換一換，更是輕輕松松就能完成。

以前品牌方需要花大量經費的棚拍、置景、造型，現在也就只需打幾行字，0成本就能出片。

此外，還能用一張卡通人物的圖片生成各式各樣的人物表情和動作。自家的寵物也能隨意地換個毛色或品種。

看到網友們發的效果這么好，我自己當然也忍不住上手試了一下。先把我們家的薩摩耶小D換個顏色，薩摩耶秒變藏獒；再換個品種試試，哈士奇也不錯。

再來玩玩我家兒子Benjamin，我上傳了一張我在后院抱著寶寶的照片。首先讓Nano Banana把我們瞬移去馬爾代夫、去巴黎、去北京故宮，看起來周游世界毫無難度。

接著，我讓它把我懷里的寶寶變成一只猩猩寶寶。大家可以看到，效果也非常自然，在我完全能夠保持不變的情況下，猩猩寶寶的墨鏡、表情、動作都保留了原片。

我決定再給它加點難度。首先讓它把我的表情從微笑變成驚訝，接著把我的姿態從看向鏡頭轉為驚訝地看向寶寶。人物的一致性依然保持得非常好。

而且大家注意看，我側頭之后，我的墨鏡中的反光竟然變成了沙灘的鏡像，整個邏輯和細節真的太贊了。

雖然目前谷歌還沒有發布Nano Banana相關的技術報告，但亞馬遜AGI部門Applied Scientis張宋揚猜測，這次Nano Bnanan的一致性控制能力之所以得到了很大提升，可能是在數據上花了很多功夫。

張宋揚亞馬遜AGI部門Applied Scientist：他們有一些自己的用戶數據，也需要做一些數據的清洗。因為并不是所有的數據，直接拿過來用就能做到想要的效果。比如說有些數據你需要進行一些篩選，把一些高質量數據，包括一些我覺得比較重要，比如像人臉這種比較難做的（數據），這種你需要增加它的比例。數據的清理是一個很大的工作要做。一個是數據來源，一個是數據清理，主要是這兩點。

除了超穩定的人物一致性之外，它的“多圖融合”功能看起來也已經到了出神入化的程度。

想讓人物跨時空會面？它生成的照片幾乎能到以假亂真的程度，從人物表情到光線對焦都毫無違和感。甚至上傳幾個食材，就能幫你“做”出一道色香味俱全的菜。

首先，讓我給“老冤家”馬斯克和Altman來攢個局。

感覺大家聊得還不錯。接著讓我們都穿上一個香蕉服裝試試。

挺可愛的，再加點難度，讓它把“路人”Pichai和扎克伯克來跟我們合影：可是馬斯克怎么變成小扎了？還有，Pichai去哪了？

再次對話調整后，人是回來了，不過不是馬斯克，好像也不是Pichai？

跟它確認一下，最右這位是Pichai嗎？它居然斬釘截鐵的告訴我他是！自家老板都不認識，這可是要扣工資的呀。我決定再幫它一把，把Pichai的照片給它，看看它能不能糾正過來，結果還是不行，看來只能扣工資了。

大家可以看出來，Nano Banana還是有很多bug的地方，這個我們稍后來說，但一般的合影需求，其實做得還是非常絲滑，非常出神入化。

比起娛樂、玩梗，其實更重要的是，多圖融合能力現在已經顯現出一種專業化替代的能力。

比如，有網友一次性輸入了包括模特照片、產品、布景元素在內的十幾張圖片，讓Nano Banana進行融合設計。最后的效果令人驚艷，幾乎可以媲美、甚至超越廣告設計公司。

而對于服裝品牌們來說，Nano Banana幾乎可以幫忙省去他們以后找模特拍產品圖的工作。比如讓Tylor Swift換身西裝，只需上傳一張衣服的平面照片就能搞定。

甚至還可以調整各種姿勢、光影，連續生成各種角度、各種姿勢的模特上身效果。

此外，擁有了“世界知識”的Nano Banana對抽象指令的理解能力也迎來了大幅躍升。

比如網友們隨手畫的一個簡筆畫，它就能準確地結合上傳的人物圖片進行姿勢改變與創意設計。讓奧特曼給你表演鞍馬，一張圖就能搞定。

再比如，在平面地圖上隨便畫一根線，它就能給你展示從這根線的視角能看到什么樣的實際風景。

此外，官方介紹中的多輪對話式編輯和風格混配能力也并沒有夸大其詞。

比如把它用于室內設計和繪圖渲染，或者讓它用不同的花朵紋理給我設計一個新衣服等等。

針對目前Nano Banana所展現出來的能力，Nathan表示，在某種程度上來說我們對圖片的編輯能力已經開始達到了文字的類似水平。

Nathan Wang 硅谷101特邀研究員 Agent資深開發者：它現在實現的功能相當我們在文字的這個階段，你把其中一段話劃出來，說你幫我改一下，或者這段話的語義不對，你幫我重新描述一下。現在它能夠在圖片上做到和文字編輯一樣的效果，比如說把某個窗簾的顏色換成紅色、換成藍色，或者把物件給去掉，從一個圖片中加這個物件，就很像我們在編輯文字式的，去在很細微、細枝末節的地方進行一定程度的優化和改變。我覺得它是真正地在多模態的模型中做到了單一的語言模型可以達到的效果，這一點是很大的一個突破。

但其實，我們以上展示都還只是Nano Banana能力的冰山一角。自發布這幾天來，網友們還正在不斷挖出Nano Banana的各種玩法。

比如已經火爆全網的”手辦模型”，我也忍不住上手制作了一個，效果真的是非常可愛。

除了“手辦”等靜態操作之外，另外一個爆火的趨勢是將Nano Banana的能力跟其他平臺結合，創作出效果驚艷的視頻。

比如有人把Nano Banana和Seedance、 Kling結合使用，實現了讓梵高、蒙娜麗莎從油畫里走出來變成真人坐在中央公園聊天，有人使用Nano Banana和Seedance僅用不到兩小時就做出一個動畫短片，有人使用Nano Banana跟Weavy制作出細節滿滿的3D產品介紹等等。

那么，跟其他模型相比，Nano Banana的能力是不是真的要強大很多呢？我們自己也進行了幾個簡單的測試。

同樣改變照片背景的指令。這是GPT-5的，人物幾乎變了樣。

這是FLUX的。人物倒是摳出來了，但是頭發少了一塊，人像是被貼上去的。

而到了讓照片融合進行合影的指令，GPT不僅不能一次性理解并完成我的指令，生成出來的照片也完全不可用。不僅像貼上去的，甚至我這個人都變樣了。

同樣的Prompt在GPT上試了一下創建手辦，人物比例、五官、背景等細節也都出現了不同程度的瑕疵。

對比使用下來最大的感受是，目前在生成速度上其他模型不僅比Nano Banana慢了幾倍，效果和輸出穩定性方面也遜色不少。

當然，Nano Banana目前也并非沒有翻車的時候。首先，在中文能力方面，Nano Banana依然沒有出現質的突破。生成的圖片依然存在文字亂碼、亂讀的現象。

對編輯指令的理解和執行也會出現偏差，比如我在要求對這個“手辦”加上一雙腿時它直接加到了盒子上，順帶著背景里的圖片也不翼而飛。

還在多輪對話編輯中，它在面對復雜指令時可能突然就凌亂了。比如我在前文對話中想繼續讓它嘗試多圖融合，生成一張馬斯克、扎克伯格、皮柴一起圍觀我懷里猩猩寶寶的照片。不僅人物比例和表情及其不協調，就連我這個照片主體變了一個人。

除此之外，網友對它不滿意的地方還有圖片分辨率不高、對提示詞的審查太嚴格、藝術性和審美上比不上Midjourney、Imagen等等。

但總體來說，大家對于Nano Banana評價主要還是以積極、正面為主，幾乎都認為這是文生圖的又一里程碑。

五條主線

谷歌的多模態生態大爆發

如果把Nano Banana放在更長的時間線上來看，你會發現，這并不是谷歌的一次“偶然爆發”。

事實上，在過去的一年多時間里，谷歌幾乎用一種“密集轟炸”的節奏，把多模態產品一口氣推到了前臺。各種模型、各種迭代甚至可以用眼花繚亂來形容。

目前谷歌到底有哪些多模態產品線呢？我們來跟你一起理一理。

谷歌的多模態產品目前已經基本形成了一個完整的矩陣，它們大致可以分成五條主線。

第一條主線，是文生圖Imagen系列。

Imagen系列最早可以追溯到2022年5月，當時Google Research首次提出這一文生圖模型。它的特點是結合大語言模型理解提示，再用擴散模型生成圖像，在當時就被認為是超越DALL·E 2的新一代方案。不過因為安全和版權風險，Imagen一開始并沒有開放給公眾使用。直到2024年I/O大會，谷歌才正式推出Imagen 3，真正走向產品化。到2025年5月，Imagen 4發布，進一步強化了光影表現和細節質量，朝著“接近真實攝影”的方向邁進。

第二條主線，是文生視頻的Veo系列。

2024年1月，谷歌研究院首次發布了Lumiere，用“時空一致性擴散”的方式直接生成整段視頻，讓動作和背景更加連貫自然。隨后在2024年5月，I/O大會上正式亮相Veo 1，可以生成1080p高清視頻。到了同年12月，Veo 2升級至4K，并首次接入Vertex AI平臺。而在2025年5月I/O，谷歌再次亮相 Veo 3，不僅能生成視頻，還能同步生成音樂和旁白，把文生視頻真正推進到影視級創作的階段。

第三條主線，是Genie系列，也就是“交互世界生成”，也被稱為“世界模型”。

和文生視頻的模型不同，Genie的目標不是做一段“看”的視頻，而是直接生成一個“能玩”的虛擬世界。

Genie 1于2024年初首次亮相，作為第一個能夠根據圖像生成可玩2D游戲環境的模型，它展示了AI創造互動世界的潛力。緊隨其后，Genie 2在2024年底發布，在一代基礎上取得了巨大進步，它能生成更長、更復雜的3D互動世界，將AI生成的虛擬環境從二維平面擴展到了三維空間。

而最新的Genie 3在今年的8月5日推出，能力再次提升到了一個新高度，能夠從文本或圖像提示生成動態、可導航的3D世界，并首次支持實時交互和“提示性世界事件”，允許用戶在生成環境中實時修改物體或天氣，使其成為了一個真正意義上的“世界模型”。

換句話說，它不僅能幫你生成一段畫面，還能讓你能真正地“走進去”，去玩、去體驗。

這讓Genie成為了谷歌多模態矩陣里一個特別的分支：它不是單純的視頻生成，而是文生視頻和虛擬交互的結合，預示著谷歌的多模態探索正在觸碰“沉浸式體驗”和“虛擬世界構建”的邊界。

第四條主線，是面向創作者的工具集。

2024年5月，谷歌在I/O上同時推出了ImageFX和VideoFX，讓用戶可以直接在Labs中體驗文生圖與文生視頻。到了2025年5月，谷歌又發布了Flow，這是一個專為影視敘事設計的工具，把Veo和Imagen的能力整合到分鏡、鏡頭、敘事風格的工作流里。

最后一條主線，就是Gemini多模態底座。

Gemini是谷歌的通用多模態基礎模型，是整個系統的“大腦”。它的核心能力在于理解、推理和處理各種信息，包括文本、圖像、音頻、視頻等。Gemini扮演著一個通用智能體的角色，為其他更專業的模型提供強大的基礎支持和世界知識。

2023年底，Gemini 1.0發布，確立了Ultra、Pro、Nano三個不同尺寸的模型家族形態。

2024年2月，Gemini 1.5發布，帶來了革命性的進步，尤其是其突破性的長上下文窗口，讓它能一次性處理海量的文本、代碼、圖像甚至視頻，這讓模型在理解復雜、冗長的文檔或視頻方面有了前所未有的能力。

2025年2月，Gemini 2.0系列登場，推出了Flash和Flash-Lite，能夠更好地應對需要低延遲和大規模部署的應用場景。

2025年8月，Gemini 2.5 Flash Image也就是大家熟知的Nano Banana正式現身，把“AI修圖”直接變成了人人可用的體驗。

盤點下來你會發現，谷歌的多模態戰略已經逐漸清晰成型：文生圖的Imagen ，文生視頻的Veo，探索交互世界的Genie，再通過Flow、ImageFX、VideoFX把這些能力嵌進創作工作流，而背后的支撐，是快速迭代的多模態底座Gemini。

在采訪中Nathan談到，谷歌所擁有的非常好的人才、基建和數據底座，是它在當前激烈的大模型競爭中的優勢所在。在這看似復雜、龐大的產品線背后，谷歌其實也有著比較清晰的產品路線。

Nathan Wang 硅谷101特邀研究員 Agent資深開發者：它每一次發不同的模型背后還是有著消費場景，或者是一定的用戶案例，其實是針對不同的用戶畫像，因為大家在產品第一件事就是要去了解你的客戶人群是誰，你才會去做產品，而不是說做了產品再去找客戶人群。所以在我看來谷歌的產品主線，還是根據客戶人群、應用場景去開發和迭代它的模型和產品，思路其實是比較清晰的。

與此同時，谷歌也正在漸進式地朝著“大而全”的智能體方向推進。

張宋揚亞馬遜AGI部門Applied Sci：現在很多大公司都希望做一個大而全的模型，能夠支持不同的模態，是一個端到端的生成模型，包括語音、包括圖片、包括視頻、包括文字甚至包括代碼，都希望做一個大而全的，因為這應該更符合大家對智能的認知。但這是一個很大的框架，但在這個框架之下，我們可能需要針對每一種任務去進行研究，比如先研究怎么去生成圖片，再怎么生成視頻。所以你會發現，它們的模型是不同的團隊在做，它們得先把某一個任務先突破了然后發布了一個產品，然后另外一個突破了再發一個產品。但我相信或者作為用戶的角度，我們肯定也是希望它能夠把這些模型融合在一起，這樣使用界面也更簡潔。

對于未來谷歌多模態的發展，大家目前普遍猜測，谷歌或許會把更多的模型能力向Gemini融合，進而面向普通用戶打造一個的多模態的超級流量入口。

而如Imagen、Veo、Genie等模型未來則將繼續向縱深發展，主要為專業級的開發提供服務。

圖源：ai.google

從Nano Banana，到一整套多模態矩陣，我們看到了谷歌過去一年多的加速爆發。在這場生成式AI的競賽里，谷歌曾被質疑掉隊。但現在，無論是圖像、視頻，還是虛擬世界和創作工作流，谷歌幾乎把所有環節都重新補齊。

這種“連環拳”式的產品發布，似乎在向外界釋放出一個信號：谷歌不只是在追趕，而是在試圖用一個完整矩陣去重新定義生成式AI的邊界。

但問題是，這樣的爆發能不能真正轉化為市場優勢？在這場速度與創新的較量中，Nano Banana又能領先多久呢？

歡迎在評論區告訴我們，你覺得谷歌的這波多模態大爆發如何，Nano Banana到底好不好用？

另外，硅谷101將在9月11日下午于上海主持由特工宇宙和螞蟻集團共同舉辦的見解論壇，感興趣的朋友可以查看下方信息進行參與！

視頻有視覺和音樂的加持，更能呈現出這些精彩的故事細節。請跳轉至硅谷101【視頻號】收看完整版

注：部分圖片來源于網絡

【本期節目不構成任何投資建議】

【視頻播放渠道】

國內：B站｜騰訊｜視頻號｜西瓜｜頭條｜百家號｜36kr｜微博｜虎嗅

海外：Youtube

聯系我們：video@sv101.net

【創作團隊】

監制｜泓君陳茜

撰稿｜張珺玥

編輯｜陳茜

主持｜陳茜

剪輯｜橘子

動效｜踹 AK12

運營｜王梓沁孫澤平何源清

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.