網易首頁 > 網易號 > 正文申請入駐

12大場景一手橫測GPT Image 1.5和香蕉2，我找到OpenAI不開發布會的原因了

2025-12-17 08:35:42　來源: 卡爾的AI沃茨

北京舉報

分享至

還是懷念OpenAI發布會的日子，

至少不會就提前兩小時發個預告，所有人熬夜等更新，這次更新的GPT Image 1.5有更強的指令遵循，更精準的圖像編輯，生成速度比之前快了四倍，而且已經全量全用戶上線了，

還上了一個新的粉粉的使用界面，

這次他們放出來的cases基本就是照著Banana2來的，多文本生成，文字信息海報，世界知識等等，那我肯定要滿足他們的愿望，來一個GPT Image 1.5和Banana2世紀大PK，十二個場景一次性看爽！

老規矩所有提示語和圖片都打包了，公眾號回復“gpt生圖”就行

先來個6*6網格多元素生成的地獄case熱熱身，

繪制一個6x6的網格

創建一個6列×6行的網格，內容如下：

第一行：希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙

第二行：螳螂、昂貴手表、浴缸、太陽鏡、彩色蝴蝶、信封

第三行：郵票、相框、熱氣騰騰的餃子、"奇跡"一詞、滑雪板、字母Z

第四行：馬桶、地鐵代幣、靜音圖標、香水瓶、蜻蜓、滑板頭盔

第五行：藍牙圖標、數字13、綠色愛心、魔方、加拿大鵝、軍用頭盔

第六行：白色小狗、救生衣、繩結、鍵盤、紙巾盒、數字14

這是Banana2的，雖然單個元素的畫風會比GPT Image 1.5順眼，但確實列數超過了，有些元素重復生成，

GPT Image 1.5，

第一局用的是GPT Image 1.5的case，第二局輪到Banana2的主場了，

生成一張3:4的圖片，畫面上方用書法寫著一首完整的《茅屋秋風所破歌》，內容是【完整全文】，每個字上方都要標注上漢語拼音，同時畫面內容主要用水墨畫的形式展示這首詩所表達的情景。

看來GPT Image 1.5的中文還沒訓練夠完整，中文錯字好高，反而是拼音注音的準確率還高點，

Banana2做出來的長這樣，

OK。馬上進入第三局世界知識PK，還是Banana2的主場case，這次就直接開始圖生圖了，

這是中國最高橋梁花江峽谷大橋的照片，描述這個橋梁的基本信息，圖像標題為花江峽谷大橋的中英文并有矩形框，包括尺寸，寬度，高度，主纜長度，建成日期等，保證原圖不變，信息以手寫標注的形式添加在圖中，并標在對應位置。在空白處畫出橋梁主纜的剖面原理示意和懸索橋基本原理示意。

第一眼我真的有被唬到，

但我發現數值跟Banana2有點不太一樣，這張圖里橋面離水面的高度數據最大跨度是對的，其他的都是錯誤的。

Banana2做出來的數據的正確率高很多，

看來要降低一點難度，做點信息圖或者海報了。

還有就是我真沒有欺負GPT Image 1.5，生成過程也是會用到GPT 5.2補充知識的，所以通過經緯度還是可以做對應地點的歷史海報的。

用一組圖，描繪公元前260年5月至10月之間，東經112°41到113°09′，，北緯35°39′到35°59′ 發生的事情，并給出詳細的信息圖，圖上要用中文說明發生了什么事情，以及結果的重要信息

GPT Image 1.5，

Banana2，

測到現在感覺沒啥懸念，1.5有點壓不住2啊，

OpenAI還給GPT Image 1.5列出了幾個小的質量更新，比方說生成非常非常非常非常多的小面孔也不會崩。

成千上萬的人群聚集在上海東方明珠前。人群中每個人的臉都必須清晰可見。

Banana2做出來的長這樣，

一拉大的話從第四列的人開始臉就開始崩了

但GPT Image 1.5做出來的這個真的會偽人到我做噩夢的程度，優化在哪了？

還有什么能測的呢？

多圖融合和精確修改還可測測看，

因為ChatGPT一次只能上傳10個圖片，所以我傳了10個毛茸茸做多圖融合

一張中景照片，10 個毛茸茸的角色擠在一起，并排坐在磨損的米色布沙發上和地板上。他們都面向前方，看著放在沙發前低矮木桌上的一個復古木盒電視機。房間光線昏暗，左側窗戶透進溫暖的光線，電視發出的光芒照亮了生物的面孔和毛茸茸的質感。背景是一個舒適、略顯雜亂的客廳，有編織地毯、擺滿舊書的書架，以及背景中的一些鄉村風格廚房元素。整體氛圍溫暖、舒適且充滿樂趣。

這個case就有點區分不出來哪個比較好了，兩個都有漏角色，重復生成的，GPT Image 1.5是少生成了一個，Banana2是多生成了一個，

GPT Image 1.5，

Banana2，

圖像修改的話，GPT Image 1.5剛好碰上Banana2更新了，上傳圖片的時候可以畫圈，箭頭，文字來指定修改，

左側case沒找到出處，右側是@歸藏佬做的

讓GPT Image 1.5也挑戰一下吧，

畫面我是真沒太看出來明暗有什么變化，但是劃線花圈文字啥的確實都抹除了，換個case來看會更加明顯，三個不同顏色的圈圈成功了一個。

OpenAI也主動承認了GPT Image 1.5在風格化上會比上一代要差，想要表現好的話可以用提供的濾鏡，不過只有13種夠誰用啊。

再拉我也測試看看，

把圖一（柯南）轉真人，模仿圖二的風格生成一個帶2D插圖元素的真人街拍

可能是我做的時候對GPT Image 1.5沒抱太大期望，這把他居然是還行的，

左邊是GPT Image 1.5右邊是Banana2

把一張九宮格圖做成完整視頻目前應該是只有Sora2能做到，之前我都用Banana2做圖的，今天剛好也試試看GPT Image 1.5做的效果。

根據這張圖片推測該場景的事件時間線，以電影分鏡方式按發生順序制作成9格分鏡網格。

GPT Image 1.5生成的九宮格里面畫風偏了我就不挑了，問題是這個九宮格它前后有邏輯順序嗎？

Banana2做出來的邏輯性會強很多，

當然我這個沒有用原版的九宮格生成提示語（太長了放鏈接），

那個是會分析圖片里所有關鍵元素，強制對應真實世界里的某一個片子的。

GPT Image 1.5做出來的長這樣，也沒好多少。。。

最后我用Grok匯總了一下兩個模型的對比，

就更沒想到GPT Image 1.5有啥競爭力了，

可能就是生圖速度快點了，

但光快也沒用啊。。。

Greg給GPT Image 1.5站臺做的case也被Banana2比下去了。

對了對了，差點忘了當時Banana2驚艷我的線稿上色的case了，

給這張漫畫頁上色并翻譯成中文放到圖中原來的位置，保持構圖和圖片細節的一致

從左到右是原圖，Banana2，GPT Image 1.5

還有還有還有，測到停不下來了，

從專業的角度詳細解釋AI視頻生成模型的訓練原理并制作一頁蠟筆小新手繪風格的英文PPT，加入比較多的文字和案例進行輔助說明，讓蠟筆小新帶領大家一起學習的感覺，PPT頁面比例16：9

這一把又測到凌晨六點了，

該洗洗睡了，

這句話我送給我自己，

也送給GPT Image 1.5，

測試過程中發現Banana2懂中文已經把我養刁了，

別的缺點都可以忍，

不會中文是真忍不了一點

要不要考慮學學隔壁Sora2，

找點IP聯名后再來挑戰吧。

@ 作者 / 困得不行的卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點贊｜在看｜轉發｜評論

如果想要第一時間收到推送，不妨給我個星標

更多的內容正在不斷填坑中……

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.