一開始我對GPT-Image-2是沒抱什么期望的,
之前的Image-1.5拉了,Nano Banana Pro和2又有點太強了,沉寂了5個月的Image-2突然開始灰度,也沒個發布會啥的,但是當灰度到我后,我發現一句話就能生成下面這張圖的時候,
我就知道,OpenAI這把穩了,這段時間包是搞到了很多很厲害的數據。
![]()
這篇文章里所有的提示詞和原尺寸對比圖,我都整理好到文檔了,回復GPT2就OK。
我立馬去搜了一下,看是不是真有這個人。
還好,雖然名字一樣,但是賬號內容是不一樣的。這個人是AI捏造的,但太真了,這光影,這氛圍感,屬于是我看到截圖會愣個30秒才能反應過來。
那我再生成一個影視颶風的首頁試一下吧。
![]()
![]()
說實話我恍惚了。。。
就算左邊是個假的,但是味真的太對了,是怎么做到封面一致性那么高的?
我覺得今天這篇測評的方向,已經非常明確了。
直接來場硬核對決,把我上次測評Nano Banana用的那些提示語,扔給GPT-Image-2再過一遍。一開始我還擔心,如果直接拿Nano Banana擅長的,那些已經測試過幾百遍的提示語給Image 2,會不會不太公平。
所以,我收集了目前匯總到的GPT-Image-2的更新信息,加強的有文字渲染,世界知識,照片真實感,界面和布局生成(比較新的點),還加強了人物一致性,生成速度(一張圖3秒),分辨率和圖像編輯能力,跟Banana2擅長的挺重疊的,不存在說有先手優勢,那我們直接開始PK!
1|文字
這是Nano Banana Pro的傳統優勢,我們先從這里開始,我做了一個包含多種不同大小的字體和復雜排版的海報設計需求。
請設計一張 3:4 豎版國潮茶飲新品上市海報,品牌名為 山川茶事。整體風格新中式、輕奢、克制,顏色以墨綠、米白、金色為主,融合宣紙肌理、留白、淡雅山水、現代版式設計。畫面主體是一杯高顏值冷泡茶與茶葉、柑橘、冰塊、金箔元素,畫面必須兼具商業感與審美感。 海報中必須準確呈現以下文字: 山川茶事 山柚觀音 冷泡系列 新品上市 一口清醒,半城入夏 限定嘗鮮價 中杯 16 元 大杯 19 元 門店活動 第二杯半價 加 3 元升級輕乳版 每日前 100 名贈限定杯套 推薦風味 觀音茶底 / 西柚果香 / 輕乳云頂 / 冰感回甘 活動時間 4月20日 至 5月10日 掃碼點單 SHANCHUAN TEA 底部小字:圖片僅供參考,請以門店實際售賣為準 要求海報具備明顯促銷信息層級,同時依舊精致,不要做成廉價電商海報。重點測試小字、數字、價格、信息模塊與中文字體美感。
![]()
![]()
左GPT右
說實話,我覺得一眼就能看出來這個海報哪一個更好看,哪一個更真實。
左邊這個我就覺得真的有這樣的一個奶茶品牌,而且這個奶茶的包裝和它的整個風格,根本就和我們平時喝的果茶沒什么區別。但是右邊這個放在Banana剛出來的時候覺得還行,但現在看多了就覺得AI感很重。
再來看看這張招聘海報,里面文字太多提示語太長,我就放到文檔里了。
![]()
![]()
我覺得從這兩個 case 就能看出來,這兩個模型可能有不同的優化方向。
整體上來說,我會明顯感覺到左邊 GPT-Image-2 出來的風格,更像我平時在某團某聘上面看到的宣傳海報,設計感強,整體的排版設計其實更符合招聘海報風格,包括它的文字,層級,以及添加的很多圖標設計,細節都更到位。
中文信息圖海報,主題為 一杯咖啡如何來到你手里。風格為高級信息設計,兼具科普感與商業視覺感,版式清晰,帶有路徑箭頭、數據框、圖標、簡潔插畫和模塊化卡片。色調以咖啡棕、奶白、墨黑、少量銅色點綴。要求圖文并重,信息非常多,但仍然好看。 海報必須完整展示以下內容: 一杯咖啡 如何來到你手里 01 種植 海拔 1200 至 2200 米 適宜溫度 18℃ 至 24℃ 采摘期通常集中在 11 月至次年 3 月 02 處理 日曬 水洗 蜜處理 03 烘焙 淺烘 更明亮 中烘 更平衡 深烘 更濃郁 04 研磨 手沖偏粗 意式偏細 冷萃中粗 05 萃取 粉水比 水溫 時間 都會影響風味 風味關鍵詞 花香 / 柑橘 / 堅果 / 焦糖 / 巧克力 / 煙熏 你喝到的每一口 都來自一連串精密選擇 底部小字:適合用于咖啡入門科普與門店展示 重點測試長信息圖、數字、溫度、編號、短說明、斜杠風味詞和多模塊排版。要讓它看起來像高質量展板,不要像課堂PPT。 如果你要把這 10 組再升級成真正的壓測套題,我建議下一步直接做三層難度版本: 第一層,純中文大標題加少量小字 第二層,中英混排加數字價格加多模塊 第三層,超長正文加底部細小版權信息加復雜表格式排版
![]()
左GPT右
放到這張咖啡圖里就區別就更明顯了,左邊的 GPT-Image-2 會用更多偏向真實的素材進行輔助說明,也會選擇像宋體這樣比較偏細的字體,更有簡潔感和高級感。海報的留白更符合審美,讓人的視覺感受更舒服。
不像右邊banana做出來的,會覺得整個海報有點擠,又有邊框,又把所有的文字跟圖片和素材都擠在一起,在視覺上一下子覺得壓力有點大。
高端護膚品電商首圖海報,產品名為 澄光維穩精華。整體風格干凈、輕奢、科學護膚感強,畫面中心是一瓶半透明磨砂玻璃精華液,帶淡金色液體和水珠反光,背景為奶白到暖灰漸變,局部有液體流動與微觀分子結構裝飾。要求同時具備品牌感和賣貨感。 海報必須包含以下文案: 澄光 維穩精華 修護屏障 舒緩泛紅 細膩透亮 第 2 代升級配方 核心成分 神經酰胺 泛醇 B5 積雪草提取物 微囊脂質體 適合人群 敏感肌 熬夜肌 換季不穩定肌 限時到手價 229 元 買 1 送 3 贈潔面 15ml 贈精華 5ml 贈面霜 10g 左下角小字:實際效果因人而異,請堅持使用 要求重點測試商品賣點、價格、贈品列表、產品名與功能短句的層級。整體要高級,不能土,不要過度直播間風格。
![]()
![]()
左GPT右
產品展示這一塊我覺得更不用多說了。
GPT用的是目前護膚類產品更喜歡使用的細襯線,加上簡潔圖標的方式。包括整個產品里面,精華瓶子里會冒出的微小氣泡,以及瓶子上面展示的產品名字,搭配的英文名,毫升數,都更加符合真實產品的樣子。尤其在贈品方面,它還根據我提供的圖片畫出了對應的贈品形式,感覺更像在淘寶頁面里看到的圖片了。
但是右邊這個還是老樣子,我覺得 Banana 看久了會覺得整個畫面,尤其是它經常會用的右邊這張海報里的這種字體(10張文字圖里8張都是這種字體),AI 感還是有點重。
用中文給我制作一張科普圖片,講述詳細的植物進行光合作用的原理
![]()
![]()
左GPT右
左邊的GPT-Image-2就像是把我高中課本掃描了一遍,直接就給我出一頁課件,Nana Banana 畫的更像一個課本里的一張插圖。我這才測了第一部分就想要半場開香檳了。
2|真實世界
接下來拼的是對真實世界的理解和復刻能力。我選擇了一個包含不同光影不同材質和不同情緒的場景。
生成一張極其真實的商場紀實攝影照片,場景是周末傍晚的大型購物中心扶梯口,一位 30 歲左右的亞洲男性剛從上行扶梯走下來,左手拎著購物袋,右手正在低頭回消息,神態自然,沒有看鏡頭。他穿深灰色連帽衛衣外搭黑色薄夾克,下身是寬松卡其褲和輕微磨損的運動鞋,頭發略亂,臉上有一點出油感和下巴胡茬。商場燈光是復雜的混合光,頂部暖白燈、品牌櫥窗冷白燈、遠處廣告屏彩色光同時存在,地面是高反光瓷磚,能看到模糊但真實的倒影。背景里有經過的人群、奶茶店招牌、玻璃護欄、模糊品牌海報。要求像攝影師在商場里抓拍的真實瞬間,不能像時尚街拍擺拍,皮膚、衣服、鞋面、購物袋折痕、玻璃反射都要非常真實。
![]()
![]()
左GPT右
很難想象這兩個模型用了多少圖片素材,是有多愛喜茶啊,兩個模型都畫。
而且我覺得先不說別的,左邊的GPT-Image-2做出來的男生發型就會更真一點,而且怎么角落里還有個佳琦直播間啊!!
生成一張超真實的城市街頭群像照片,場景是夏夜十點的便利店門口,三到四個年輕人正在門口短暫停留聊天,有人拿著飲料,有人坐在店外塑料椅上,有人站著低頭看手機。便利店的玻璃門和櫥窗透出明亮白光,外面路邊則是暖黃街燈和遠處車燈。人物穿搭非常日常,包含T恤、襯衫、短褲、牛仔褲、運動鞋,不要網紅穿搭感,臉部狀態和體態都要像真實路人,不能每個人都過于精致。環境要有真實便利店元素,冰柜貼紙、促銷海報、垃圾桶、門口地墊、玻璃倒影、路邊共享單車、地面飲料瓶水珠。畫面像攝影師在城市里拍到的一張非常真實的生活切片,重點測試多人自然互動、夜間便利店燈光、玻璃反射和普通人氣質的還原能力。
![]()
![]()
左GPT右
我覺得有意思的點,就是從他們生成這些偏生活類的照片中,我可以去猜一下這些來源的訓練照片是什么時候的。
就比方說,右邊Banana居然生成了一輛藍色的 ofo單車,左邊的GPT-Image-2里人物手里拿著的那瓶呢,我盲猜是紅牛跟茉莉蜜茶的混合體。
![]()
![]()
左GPT右
這個場景我覺得分不出高低,因為左邊的GPT-Image-2有個萬年老立白和沒洗干凈的菜盤子,另一個banana有萬年砧板。
我只能說,廣東人家里的砧板不會放在鍋前面,因為這樣會濺到油。如果非要摳完細節的話,我覺得 GPT 會小贏一點點。畢竟它這里面看起來炒肉的肉絲多一點。哎不對,我突然看到了Image2里的這個圍裙居然是建設銀行的!
3|界面復刻
我覺得剛剛看了某音和某站復刻的頁面還不過癮。所以我又做了更多,比如這個黑悟空實機演示畫面,
生成黑悟空神話,被二郎神打飛的游戲畫面
![]()
![]()
玩過黑悟空的應該都會覺得上邊的GPT-Image-2更真實吧,天命人跟楊戩的形象跟原游戲的風格很像,戰斗模式也是第一人稱視角的,甚至還有臺詞,右面更像是左右回合制對戰的形式。
然后我還翻出了最開始測香蕉的時候,用的微信聊天記錄群的提示語。
![]()
![]()
左GPT右
我覺得這局算是平手。左邊GPT-Image-2的圖,整個布局和字體都更接近微信的排版,但是右邊Banana引用圖片的方式,以及聊天中間會有時間展示,都更接近微信。
再來看看電商首頁的這個 UI 展示,
生成一張高保真移動端電商 App 首頁界面截圖,整體風格參考 2026 年主流中文電商 App,要求界面極其真實,具有完整的手機應用 UI 邏輯與商業設計感。頁面頂部為狀態欄,包含時間 9:41、5G 信號、電量圖標。下面是搜索框區域,左側為城市選擇 杭州,中央是圓角搜索框,提示詞為 搜索耳機、咖啡機、運動鞋,右側有消息圖標和掃一掃圖標。搜索區下方是橫向分類標簽,包含 推薦、數碼、家電、服飾、美妝、食品、運動、家居,其中 推薦 高亮選中。 首頁主體內容必須包含以下結構并排版清晰: 頂部輪播 Banner 一張,主題為 618 預售開啟,副標題 每滿300減50,畫面帶商品海報和紅色促銷氛圍 Banner 下方為 10 宮格功能區,圖標風格統一,包含 超市、百億補貼、秒殺、直播、充值中心、到家、領券、品牌館、全球購、排行榜 中部為 限時秒殺 模塊,左側標題,右側倒計時 02:14:39,下方三件商品卡片橫向排列,每件商品含商品圖、標題、現價、原價、已售進度條 下方為 猜你喜歡 雙列商品瀑布流,至少 6 張商品卡,每張卡片包含商品圖、兩行商品標題、價格、月銷、店鋪名、好評率、券后價標簽 底部固定 Tab Bar,包含 首頁、分類、購物車、消息、我的,其中 首頁 為高亮狀態 要求: 所有中文文字清晰、可讀、接近真實字體 圖標統一,間距合理,留白真實 卡片陰影、圓角、分隔線、標簽樣式高度像真實 App 不要生成手機外殼,只輸出純界面截圖 整體必須讓人一眼覺得是真實電商 App 截圖,而不是概念圖
![]()
![]()
左GPT右
這兩個的首頁其實都還挺像的,但是右邊的 Banana 很喜歡用這種比較粗的字體,讓畫面看起來比較擠,而且總是給我輸出這種帶邊框的圖片。
再來看一個音樂播放器的 UI 界面,
生成一張高保真中文音樂 App 播放頁界面截圖,移動端豎屏,視覺精致,風格接近現代流媒體播放器。整體以深色模式為主,背景來自專輯封面的模糊擴散色,中央是大尺寸方形專輯封面,帶微弱陰影和圓角。頂部狀態欄時間 18:26。導航欄左側返回箭頭,中間標題 正在播放,右側更多操作圖標。 頁面需包含以下信息并排版真實: 歌曲名:海邊的晚風 歌手:林秋 專輯名:夏夜實驗室 播放進度條,當前時間 01:42,總時長 04:18 進度條下方為拖動圓點 控制按鈕包括 隨機、上一首、播放暫停、下一首、循環 下方有歌詞區域,顯示 5 到 7 行滾動歌詞,其中當前播放行高亮,其余行弱化 再下方有 喜歡、評論、下載、收藏到歌單、分享 按鈕行 頁面底部有設備投放與播放隊列入口 要求: 歌詞排版要有真實的音樂播放器體驗 深色層級、按鈕圖標、進度條反光與陰影要真實 中英文數字混排自然 整體像可直接上架的產品界面,而不是 Dribbble 概念稿
![]()
![]()
光是左邊GPT-Image-2給我做了一個專輯封面,這一點就已經贏了。
然后我還把我的賬號截圖發給了 GPT 和 Banana,讓他給我做一個抖音直播的預告封面。
給這個賬號制作一張抖音直播預告圖,直播內容和時間你來設計
![]()
左GPT右
只能說左邊GPT-Image-2真的贏麻了,它自己設計的這些內容以及看點,我看了都想直接拿來用。
4|一致性
除了文生圖,我現在還特別依賴生圖模型對于圖片二次處理的能力。
也就是說,我希望它能夠保持我上傳的參考圖片的風格,或者保持參考圖片中主體的一致性,這兩點都非常重要。
所以我也對比了Image2和 Banana的人物一致性能力。這里我直接用兩個表情包,分別看看它們對動畫人物和真實人物的一致性都能保持得怎么樣。上來就讓它們生成十六宮格表情包。
生成一個有著銀色長發和藍色眼瞳的二次元動漫少女的十六宮格表情圖。她的臉型、發型、服裝必須在所有格子里保持高度一致。十六個表情需要包含:開心、難過、憤怒、驚訝、害羞、無語、壞笑、沉思、好奇、得意、委屈、鄙視、困惑、害怕、流淚、以及一個愛心的表情。
![]()
![]()
![]()
左GPT右
好家伙,原來芙莉蓮可以有這么多表情的嗎?不過我覺得其實兩方的差別不是很大。硬要說的話,我其實更喜歡左邊GPT-Image-2給我分格的形式,右邊所有芙莉蓮的耳朵都連在一起了。
那再來看看這個哈利波特呢,這是劇版小哈利波特的劇照,什么時候上映啊。
![]()
![]()
![]()
這場我給到平局。右邊Banana在保持人物臉型和發型的一致性上做得非常好,中間Image-2則在表情的多樣性上小勝一把。
我還做了一個產品場景的,先讓GPT 5.4了解一下常用的產品打光有哪些類,然后再讓Image-2根據一個參考的香水圖片,一次性輸出多宮格圖片。
![]()
上GPT下
5|圖片參考
再到圖片參考這一塊,也是我們使用頻率很高的圖片二次編輯能力。
這里我跟家里小貓一拍即合,給它做一個肯德基的聯名海報,
以「77(貓的名字)X肯德基」聯名企劃為主題,圍繞同一只寵物(形象、花色等與上傳圖片絕對一致)生成一張聯名海報。統一寵物形象與肯德基品牌識別(紅白配色、經典LOGO、餐廳場景等)的前提下,讓小貓穿肯德基員工制服、帶上肯德基員工帽子,佩戴工牌站在柜臺前、兜售炸雞、漢堡和套餐、與炸雞桶、薯條、汽水等元素互動等。畫面風格活潑、有趣、具有商業聯名感,適合用于線上宣傳與活動海報。然后自由的為這張海報添加合適的中文內容。
![]()
![]()
![]()
可以看到兩邊的小貓的形象都還和原圖保持了一致。但是整體的畫面豐富度,包括下面還有一個聯名限定,我覺得都是中間的GPT-Image-2做的會更好。右邊 Banana 做出來的就有點呆了。
而且,GPT的圖片編輯的交互方式也很爽,
直接點擊圖片,左下角就有個編輯功能,比方說,我在這里把麥當勞風分別改成了肯德基,漢堡王,麥當勞跟愛馬仕的聯名。我拿放大鏡看了一下,細節部分處理得非常好,背后套餐小圖上面的 Logo,底下收銀機上面的文字,都是可以對上的。
![]()
![]()
![]()
再看海報復刻,
左邊我給了一張風格化非常強的一版海報,然后丟給Image2和Banana,讓他們去復刻,把里面春天場景的內容改成冬天。
![]()
![]()
![]()
可以看到,其實中間的GPT-Image-2和右邊的Banana對于整個風格的復刻做得都很不錯,包括字體和圖片的樣式,都和原圖保持了非常一致的風格。
如果要論細節的話,可能中間Image-2那張圖的九宮格截圖更具有膠片的顆粒感,與原圖的一致性會更高一點點。
然后再來看看我們也經常會用到的圖片翻譯功能,
給這張漫畫頁上色并翻譯成中文放到圖中原來的位置,保持構圖和圖片細節的一致
![]()
![]()
![]()
真要說的話,右邊GPT-Image-2的文字沒有翻譯完整,人物的名字沒有翻譯,但是中間這個Banana的翻譯效果當時我抽了很久,文字總有那么幾次不太穩定的時候,真要論文字穩定Image-2我可以給到夯!
最后,
同樣是圖片反推提示語,再讓模型文生圖,GPT-image-2(中間)的細節我能到夯!
![]()
![]()
![]()
呼,測試到這,
當我再去翻GPT的圖庫時,
回想到當時GPT4o爆火,還是因為生成那種抖動性的iPhone圖。
![]()
這種突然的反超我真覺得是AI最有魅力的點,
充滿了不確定性。
今天,你可能覺得某個模型是編程第一。
明天,就可能有一個新的選擇出現,
它會用一種全新的思路來解決過去頭疼的問題。
這種你追我趕的狀態會倒逼整個生態越來越好,
使用的門檻越來越低。
放到26年的今天,一個創作者訂閱著十幾個不同的AI會員一點都不離譜。
但這件事,如果放在23年,光是訂閱費就心痛。
那個時候得挑著用,選著用,
從一堆感覺能用的模型里邊,
選擇一個看起來還行的。
但現在,這種體驗和感受已經變成了,
我這個也想用,那個也想用。
沒有誰能代替得了誰,
大家都是越做越好了。
@ 作者 / 卡爾 & 阿湯
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
如果你有更有趣的玩法,歡迎在評論區聊聊
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.