網易首頁 > 網易號 > 正文申請入駐

谷歌“香蕉”殺死Photoshop，全球軟件業徹底變天了

2025-09-16 16:39:10　來源: 鈦媒體APP

北京舉報

分享至

文 | 硅基星芒

若論當前最火的AI應用，非谷歌的“香蕉”——Nano Banana莫屬。

Nano Banana原名是Gemini 2.5 Flash Image，但自從它“驗明真身”，大家普遍反映還是Banana好記。

而“聽勸”的谷歌，也馬上把模型名換了回去。

不論是文本生成還是圖像編輯，Nano Banana都展現出了斷檔領先的實力。

首先來看看評分：

圖：LMarena文生圖模型排行榜

圖：LMarena圖像編輯模型排行榜

可以看到，文生圖能力屬于最優一檔，而圖像編輯能力更是碾壓級別，幾乎砸穿了Photoshop的鍋。

我們可以篤定，Nano Banana之后，全球軟件業徹底變天了。

01 用戶體驗：“驚艷”兩個字已不足以形容

事實上，“驚艷”這兩個字，已經不足以形容Nano Banana的強大。

先前的文生圖評測中，我們已經見識過它的本事。

但根據Gemini API文檔中的描述，它還有幾個其他的“拿手好活”：

在Nano Banana被發現出現于LMarena之前，各家大模型對于文生圖中的文字幾乎都“束手無策”。

哪怕不提漢字，只是英文單詞，生成出來的基本都是亂碼，令人難以理解。

Nano Banana輕而易舉地攻克了這一難關。

而最近讓Nano Banana在網絡上爆火的原因，則是有網友發現它可以制作精度極高的手辦圖。

圖片中的手辦完全能夠以假亂真，圈外人可能完全無法分辨這到底是不是真的手辦。

除此之外，Google還明確介紹了Nano Banana的其他生圖優勢：

例如逼真的場景、風格化的插圖和貼紙、產品模型和商業攝影、極簡風格和負空間設計等。

而在圖像編輯方面，Nano Banana也能夠出色的完成以下任務：例如添加和移除元素、局部重繪、風格遷移、組合多張圖片、高保真細節保留等……有效解決了以往模型“牽一發而動全身”的問題。

這么說可能有些抽象，我們用Nano Banana團隊在采訪中談到的例子來解釋。

①像素級的修圖編輯

最常見的需求之一：只想修改一張圖像中的一處細節，但又希望其他部分保持原樣。

旅游照片P掉路過的游客、自拍照去掉熬夜的黑眼圈，這些對于以往的多模態模型來說，并不是一項很簡單的挑戰。

微小的修改往往會導致圖像整體風格或結構的不協調，而觀感則會遭到嚴重的破壞。

Robert Riachi在采訪中提到，團隊在模型2.0版本時期遇到的一個主要挑戰，就是編輯時往往無法保證與圖像其他部分的一致性。

但通過持續的“爬坡訓練”和用戶反饋收集，Nano Banana才取得了明顯的進步。

無論是給小貓戴上一頂帽子，還是調整一件家具的方向，它都能做到保持場景的整體姿態和結構不變，讓編輯的部分與圖像其余部分無縫融合。

而這種精準的控制力，對于需要高度一致性的創作場景至關重要。

②不同角度的渲染

圖像雖然是2D的，但它反映的內容卻是3D的。

因此，想要完成對現實世界中物體的精確編輯，還需要AI對三維空間具備一定的理解能力。

NanoBanana能夠從不同的角度渲染角色和物體，創造出全新的場景。

比如，上傳一件家具的圖像，讓它從側面或是背面重新生成，生成的結果仍然能保持高度一致性。

這種能力不僅是像素的復制，而是通過理解對象的外觀和深層結構，對原始圖像進行實質性變換，而創作自由度也是由此而來。

③交錯式生成

相比于文本，圖像中包含的信息往往更多。

對于較為復雜的圖像生成任務，Nano Banana引入了“交錯式生成”的新范式。

傳統的文生圖模型需要一次性處理所有細節，如果指令中包含大量修改或元素的提示，模型就很容易發生“飽和”現象。

Nano Banana采取的解決方案是“化整為零”。

將復雜的提示分解為多個步驟，逐步進行編輯或生成。

這種增量生成的方式，能夠讓模型處理細節時更加精準。

同時，它還可以積累上下文信息，從而生成高度復雜且高質量的圖像。

創作流程因此變得更加靈活可控，模型處理復雜任務的能力也得以顯著提升。

④超越用戶的預期

Mostafa Dehghani在訪談中提到了一個詞——“智能感”。

他給出了一個有趣的例子：在要求模型執行某項操作時，模型并未原封不動地遵循并執行他的指令。

但最終生成的結果卻比他實際描述的要更好，這使得他感到十分驚喜。

可以看出，Nano Banana已經打破“執行命令的工具”這一格局。

它具備一定的真實世界的相關知識和常識，能夠在一些特定情境下對用戶的模糊或錯誤指令進行修正和優化。

這種“智能”帶來的影響可好可壞，或許它無法達成用戶的預期效果，但也可能生成更符合用戶潛在需求甚至更具創意的圖像。

對于大部分人來說，這種“智能”還是會明顯提升用戶體驗，畢竟“創意”總是可遇而不可求的。

02 商業化前景：文生圖盈虧平衡出現曙光

任何先進的技術，其商業化落地都離不開成本效益的考量。

而Nano Banana在圖像領域的應用，自然也涉及到成本和潛在的盈利模式。

Robert Riachi在采訪中，明確提出多模態數據（圖像和視頻等）的“爬坡訓練”非常困難。

這需要大量的人類偏好信號，因此訓練就需要投入巨大的時間成本和資源。

機器學習的過程中，需要錨定一個指標用于評估訓練結果的好壞。

以往的指標往往需要幾個小時才能獲取到有效反饋，而Google的研究團隊則始終在努力尋找更為高效的訓練指標。

另一方面，圖像的極度主觀性，使得收集并處理用戶反饋成為一個同樣耗時且昂貴的過程。

Kaushik Shivakumar強調了“人工評分”在圖像生成評估中的成本效益問題。

先前我們的AI競技場一文中曾經介紹過，LMarena就采用了這種“人工評分”的方式。

我們看到的排行榜上的Votes正是由該網站的使用者進行投票得出的。

即便是效果如此出色的Nano Banana，目前的投票數量也只有22萬左右。

因此，讓足夠多的用戶進行圖像質量評分固然能提供良好的信號，但這種方式的成本恐怕令Google團隊都難以承受。

這條路走不通，就必須尋找更加高效且經濟的評估指標，也就是Nano Banana目前使用的“文本渲染度量”，這項技術我們后面再介紹。

除了訓練成本，模型部署上線后的推理成本也要考慮。

目前，Nano Banana的API定價為：

文字輸入：＄0.30/M tokens
文字輸出：＄2.50/M tokens
圖像輸入：＄0.30/張
圖像輸出：＄0.039/張

在Google AI Studio上可以免費使用，但近期已經設置免費額度。

如此低的定價再加上高質量的生成效果，Nano Banana的性價比可以說是直接拉滿。

與此同時，本周網上已經開始出現第三方平臺以更低的價格提供Nano Banana的API服務。

以AI領域現有的產品迭代速度，其他廠商推出水平相近的模型恐怕也只是時間問題。

僅僅依靠Nano Banana的使用費用，極難覆蓋Google在如此先進的模型上投入的巨大成本。

因此，這一重新定義AI圖像領域的模型的誕生，更多還是為了應對市場份額和生態系統的競爭。

AIGC作為科技巨頭公司競爭的焦點，Google必須不斷推出有競爭力的產品以對抗OpenAI或是Midjourney等公司。

而Nano Banana和Gemini 2.5 Pro兩款高用戶評分產品的存在，有效保持了Google在AI領域的領導地位。

從技術角度來看，模型的迭代和優化是一個幾乎永不間斷的過程。

平民級別的價格能夠帶來的，是所有廠商都急需的大量真實用戶數據。

Google這樣的科技公司，更多是通過平臺上提供的各種服務實現盈利。

即使Nano Banana現在可能虧本，但低成本的圖像生成和編輯能力，不僅可以用來吸引用戶進入Google的生態系統，鼓勵用戶使用Google提供的相關服務；未來，還可能成為某些更大利潤業務的核心組件。

03 技術邏輯：跨時代的強大

Nano Banana能夠在AI圖像領域實現如此強大的能力，歸功于Google團隊在多模態學習、用戶反饋機制和創新架構設計等方面的長期投入和努力。

在觀看完Google官方發布的約30分鐘的采訪后，不得不對其技術能力感到驚訝。

①文本渲染度量

這是Kaushik Shivakumar始終堅持的一項指標，起初誰也沒能想到它就是成功的關鍵。

前面我們說過，Google團隊需要找到一個無需依靠用戶主觀評價的指標來判斷模型是否在“越變越好”。

在Nano Banana正式發布之前，無論是國內還是國外的多模態模型，生圖水平參差不齊。

但在圖片中加入文字這件事上，所有的模型都無法準確完成。

看起來，文字生成只是AI圖像領域的一個分支，但Google團隊堅持以此為優化目標。

最終結果也證明了這是一個無比正確的決定。

在對文本渲染的不斷優化過程中，研究團隊發現圖像生成質量也在不斷提高。

天才般的想法，加上持之以恒的努力，成就了Nano Banana的強大。

②多模態統一模型與正向遷移

Mostafa Dehghani提出了Nano Banana的核心理念之一：實現原生的圖像生成和多模態理解與生成。

這意味著模型會在同一個訓練運行中學習所有模態和不同的能力，而最終目標則是實現跨不同維度的正遷移。

簡單地說，就是要讓模型不僅能理解和生成單一模態（比如文本或圖像），還能利用從一種模態中學到的知識，幫助理解和生成另一種模態。

例如，模型可以從圖像、音頻和視頻中學到真實世界的相關知識，從而更好地理解和生成文本。

就像Robert Riachi提到的一種名為“報告偏差”的現象：

人們在日常對話中通常不會提及哪些顯而易見、習以為常的事物，比如朋友家的普通沙發。

但如果展示一張房間的圖片，沙發就會自然呈現在眼前。

說實話，這個例子舉得有點莫名其妙，但確實有一定道理：

圖像和視頻等視覺信號里，包含著大量關于真實世界的隱性信息，而這些信息無需明確請求即可獲取。

對于一個多模態模型來說，視覺信號是了解世界難得的“捷徑”。

這種統一的多模態學習方式，幫助Google團隊建立了更全面和深入的“世界模型”。

Gemini系列產品也在各種模態任務中表現出了更高的智能化程度，LMarena的數據已經驗證了這一點。

因此，采訪中提及圖像理解和圖像生成被視為“姐妹”，在交錯生成中互相促進。

③從錯誤中學習：用戶反饋驅動“爬坡訓練”

Robert Riachi著重強調了利用人類偏好進行“爬坡訓練”的重要性。

但前面已經說過，不可能模型每次生成圖片都讓人類來判斷孰優孰劣。

因此，Google團隊收集了大量來自Twitter等平臺的真實用戶反饋，將失敗案例轉化為評估基準，而這些恰恰是用于改進模型的寶貴信號。

在模型的2.0版本發布時，團隊成員敏銳地注意到一個常見的失敗案

例：

編輯時無法保持圖像其余部分的一致性。

于是，以此為基礎，團隊開始針對于具體問題進行“爬坡訓練”和迭代。

這種以用戶為中心、從錯誤中學習的機制，正是Nano Banana能夠解決這一挑戰的關鍵。

④團隊協作：Gemini與Imagen的融合

采訪的最后，Robert Riachi也談到了Nano Banana的成功離不開Gemini和Imagen兩個團隊的緊密協作。

Gemini團隊專注于指令遵循和世界知識等方面，確保模型能夠理解用戶的意圖并生成符合邏輯的內容。

Imagen團隊專注于圖像的視覺質量，確保生成的圖像自然美觀，且不出現明顯問題。

Gemini 2.5 Pro之前的長期霸榜已經說明其功能的強大，而融合兩個團隊的視角和專業知識，Nano Banana做到了兼顧圖像的“智能性”和“美觀性”。

Nano Banana在Google AI Studio上線后，我們也可以發現，它和Gemini 2.5 Pro是融為一體的，在原先的聊天界面就可以直接使用，而非兩個獨立的模型。

這種跨團隊的深度合作，使得Google的產品體系上升到了一個新的高度。

04 結語

就像很多標題所說，Nano Banana的出現毫無疑問給AI圖像領域帶來了革命性的變化。

從像素級的完美編輯，到交錯式的復雜圖像構建；

從對用戶意圖的智能理解，到超越預期的創意發散；

人工智能在視覺藝術上的創作潛力正在被逐步發掘。

但與此同時，以假亂真的高質量圖像也在改變很多行業的現狀。

盡管Nano Banana生成的圖像目前也已經明確帶有AI生成標識，但它的作品已經足以滿足大多數人的需求。

未來的創作者和藝術家又該何去何從？

唯一可以確定的，是AI圖像領域的未來將會更加智能、更加高效、更具創意。

而人機之間的協作，也即將開始書寫全新的篇章，全球軟件業正因此重塑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

谷歌發布Gemini 3.1 Pro，推理性能翻倍

量子位 2026-02-20 23:26:53
0 跟貼 0
ClawHub迷之封殺操作，逼出首個Agent全球進化網絡

量子位 2026-02-20 15:41:42
9 跟貼 9

谷歌高層回應AI泡沫質疑：這是工業革命，但速度快10倍、規模大10倍

華爾街見聞官方 2026-02-20 20:16:41
81 跟貼 81

美國開始出手！一周挖走4名中國頂尖人才，年薪1個億美元令人咋舌

烽火觀察 2026-02-19 11:41:25
1 跟貼 1
美股三大指數集體收漲谷歌漲超4%

每日經濟新聞 2026-02-21 06:14:22
1 跟貼 1

機器人進汽車廠，給波士頓動力，裝上谷歌最強大腦

機器之心Pro 2026-01-06 19:02:05
3 跟貼 3

DeepMind負責人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯！

新智元 2025-12-16 16:55:25
0 跟貼 0
告別軟件依賴：OpenAI 200人團隊押注硬件，打響AI消費終端爭奪戰

鈦媒體APP 2026-02-21 14:03:13
6 跟貼 6

谷歌發布AI音樂Lyria 3模型，純小白也能輕松上手變達人

快科技 2026-02-19 18:18:44
0 跟貼 0
下一代谷歌頭顯，XREAL x Google 定義混合現實頭顯

愛范兒 2025-12-10 05:12:08
0 跟貼 0
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
中國常駐聯合國代表傅聰重申：日本沒資格要求入常

央視新聞客戶端 2026-02-21 08:01:36
4367 跟貼 4367
理解與尊重比協議更重要：扎哈羅娃眼中的中俄關系底層邏輯

創作者_7SAu 2026-02-21 03:03:54
0 跟貼 0
日博主來華旅游拿著谷歌地圖分析上海造船廠，小樣心思不單純

搞笑荔枝 2026-02-21 03:23:07
0 跟貼 0
為什么中國摩托，在非洲被印度三哥干掉了，背后邏輯很簡單！

笑到抽筋故事會 2026-02-20 16:28:00
0 跟貼 0
Being-VL的視覺BPE路線：把「看」和「說」真正統一起來

機器之心Pro 2025-10-09 10:59:57
0 跟貼 0
C羅曼聯時期的過人技術，有多超神，熱刺0-4曼聯

老皢尾聲體育解說 2026-02-21 00:15:34
1 跟貼 1
面向具身場景的生成式渲染器TC-Light來了，代碼已開源

機器之心Pro 2025-09-25 18:44:02
0 跟貼 0
告別「面癱」配音，InfiniteTalk開啟從口型同步到全身表達新范式

機器之心Pro 2025-08-28 14:12:20
0 跟貼 0
PosterGen：告別學術海報制作煩惱，從PDF生成可編輯PPTX學術海報

機器之心Pro 2025-09-04 18:05:43
0 跟貼 0
美軍開打前夕，俄交武器中方出手，殲20模型抵伊朗

戰武科普 2026-02-19 11:39:39
0 跟貼 0
OpenAI創始人點贊中國大模型，國產方案成國際市場新寵

經濟觀察報 2026-02-20 21:54:07
19 跟貼 19
OpenClaw 之父加入 OpenAI 前最后的訪談：你很難跟一個純粹為了好玩的人競爭

愛范兒 2026-02-20 17:25:49
3 跟貼 3
網易這款Top級產品把一件“笨事”做到了極致

游戲陀螺 2026-02-21 15:44:54
0 跟貼 0
Gemini最強版本上線：推理斷層領先，姚順宇預告更強版本還在路上

DeepTech深科技 2026-02-20 18:35:08
30 跟貼 30
一通電話高情商求助：從小撒這通電話看向上溝通的底層邏輯

達達愛剪輯 2026-02-20 00:58:43
0 跟貼 0
硅谷大佬拒絕握手，印度AI峰會“槽點”不斷

第一財經資訊 2026-02-20 21:10:47
356 跟貼 356
專業度直接降維打擊，王孟源邏輯秒殺蔡正元！

huaser不花 2026-02-21 14:18:38
0 跟貼 0
懂人性更懂執行，螞蟻這個萬億開源模型把情商和戰斗力都給拉滿了

量子位 2026-02-19 12:45:37
2 跟貼 2
IGN批評索尼關閉藍點：玩無極限？我看是毫無規劃！

游民星空 2026-02-21 16:11:53
0 跟貼 0
Xbox換帥!新負責人能否帶領微軟駛向未來？

游民星空 2026-02-21 16:11:53
0 跟貼 0
Xbox迎來“外行領導”！入職僅兩年玩家表示不看好

游民星空 2026-02-21 16:11:53
0 跟貼 0
AlphaGo之父出山：另辟蹊徑，繞過大模型探索超級智能

DeepTech深科技 2026-02-20 22:20:30
4 跟貼 4
人氣火爆！江蘇無錫一景區發布限流公告

現代快報 2026-02-19 22:42:05
591 跟貼 591
痛心！樹齡1200年古樟持續燃燒7小時，只因倆小孩隨手扔爆竹

環球網資訊 2026-02-21 10:22:16
623 跟貼 623
AI上春晚：一場十四億人的驗收

36氪 2026-02-18 10:56:31
5 跟貼 5
寧忠巖父母熬夜守著觀看比賽，奪冠那一刻兩人相擁而泣

新華社 2026-02-20 23:02:53
72 跟貼 72
感覺我駕照白考了，智能駕駛都發展到地步了，根本不用扶方向盤

松離搞笑家 2026-02-20 13:56:00
0 跟貼 0
全球望塵莫及的中國風洞，是被錢老學生，一場爆炸“炸出來”的！

三石記 2026-02-21 13:44:06
0 跟貼 0
哈爾濱冰雪大世界臨時閉園2天，網友稱有冰雕開始融化，客服稱正在修整，重新開園后門票降價100元

極目新聞 2026-02-19 23:22:54
312 跟貼 312

貝加爾湖底的七名中國游客，本來是可以不用死的

未來展望

2026-02-21 00:23:41

烏克蘭的“壞消息”：破壞團結，扎盧日內公開指控澤連斯基

鷹眼Defence

2026-02-20 17:49:36

發現一個悲哀現象：中國的長壽老人，幾乎都是子女用生命在托舉

談史論天地

2026-02-21 08:33:48

澤連斯基的日常：凌晨3點開工、靠黑咖啡硬撐！戰爭讓他容貌巨變

老馬拉車莫少裝

2026-02-21 00:16:58

香港公布宏福苑長遠居住安排方案

界面新聞

2026-02-21 15:25:17

中央氣象臺繼續發布暴雪、寒潮藍色預警

每日經濟新聞

2026-02-21 11:55:05

7名中國游客在貝加爾湖遇難，目擊者稱事發冰面表面光滑但下方有裂縫，總領事館：已與遇難人員家屬建立聯系

極目新聞

2026-02-21 14:31:40

48歲歐陽夏丹父母雙亡獨自過年，一個人吃7道菜，大口吃飯不矯情

離離言幾許

2026-02-20 23:38:28

夫婦路邊散步撿到帆布袋，里面裝了20多個紅包共7萬多元，失主回應：是4個孩子的壓歲錢，廣東人：驚呆了......

極目新聞

2026-02-21 08:51:20

賈淺淺《開花》被獲得全國詩歌一等獎的詩，寫出了女性的原始欲

讀睡

2026-02-20 16:29:43

狂炫5斤車厘子和紅燒肉，12歲男孩進了重癥監護室

現代快報

2026-02-21 13:58:06

33.9萬！火鍋店稱把春節4天盈利分給員工，老板：去年關了兩家店但春節福利要堅持

紅星新聞

2026-02-21 10:12:08

罄！告急！有跨省回上海返程機票高達11560元

新民晚報

2026-02-21 12:30:00

男子拿錯快遞，把白糖當底沙倒進魚缸！網友：魚要崩潰了……

環球網資訊

2026-02-21 16:00:42

特朗普宣布加征10%全球進口關稅，白宮公布豁免范圍

界面新聞

2026-02-21 11:05:45

男子打麻將連續自摸胡牌后突然癱倒在牌桌前！送醫時血壓飆到201/115mmHg

閃電新聞

2026-02-20 22:54:48

毛奇、李佩霞2026年近況公布，兩人服刑結局給所有人提了醒

娛樂督察中

2026-02-21 03:23:47

媽祖事件真相大白，紅衣女孩已做多年乩童，這三年來變化越來越大

觀察鑒娛

2026-02-21 10:51:24

特朗普暗示違法征收的關稅不退了

財聯社

2026-02-21 06:46:21

扶老人被索賠22萬？資深律師：初中生擔責有據！

閃電新聞

2026-02-21 10:15:27

鈦媒體APP

獨立財經科技媒體

129728文章數 861793關注度

往期回顧全部

科技要聞

智譜上市1月漲5倍，市值超越京東、快手

頭條要聞

在貝加爾湖遇難的3名中國游客身份已確認：系一家人

頭條要聞

在貝加爾湖遇難的3名中國游客身份已確認：系一家人

體育要聞

冬奧第一"海王"？一人和13國選手都有關系

娛樂要聞

鏢人反超驚蟄無聲拿下單日票房第二！

財經要聞

一覺醒來，世界大變，特朗普改新打法了

汽車要聞

比亞迪的“顏值擔當”來了方程豹首款轎車路跑信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

數碼

時尚

教育

藝術

手機 / 數碼

房產 / 家居

谷歌“香蕉”殺死Photoshop，全球軟件業徹底變天了

智譜上市1月漲5倍，市值超越京東、快手

在貝加爾湖遇難的3名中國游客身份已確認：系一家人

在貝加爾湖遇難的3名中國游客身份已確認：系一家人

冬奧第一"海王"？一人和13國選手都有關系

鏢人反超驚蟄無聲拿下單日票房第二！

一覺醒來，世界大變，特朗普改新打法了

態度原創

海南“封關”后首個春節：三亞入境游暴增3倍，外國游客涌入“環游世界”

英特爾Bartlett Lake-S系列處理器陣容曝光：全大核、睿頻5.9GHz

2026紐約秋冬時裝周，在春天開啟美的新故事！

新春走基層 | 慢飛天使捏出 “年的形狀”

史洪生油畫作品

智譜上市1月漲5倍，市值超越京東、快手

鏢人反超驚蟄無聲拿下單日票房第二！

一覺醒來，世界大變，特朗普改新打法了

英特爾Bartlett Lake-S系列處理器陣容曝光：全大核、睿頻5.9GHz