還是懷念OpenAI發布會的日子,
至少不會就提前兩小時發個預告,所有人熬夜等更新,這次更新的GPT Image 1.5有更強的指令遵循,更精準的圖像編輯,生成速度比之前快了四倍,而且已經全量全用戶上線了,
還上了一個新的粉粉的使用界面,
![]()
這次他們放出來的cases基本就是照著Banana2來的,多文本生成,文字信息海報,世界知識等等,那我肯定要滿足他們的愿望,來一個GPT Image 1.5和Banana2世紀大PK,十二個場景一次性看爽!
老規矩所有提示語和圖片都打包了,公眾號回復“gpt生圖”就行
先來個6*6網格多元素生成的地獄case熱熱身,
繪制一個6x6的網格
創建一個6列×6行的網格,內容如下:
第一行:希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙
第二行:螳螂、昂貴手表、浴缸、太陽鏡、彩色蝴蝶、信封
第三行:郵票、相框、熱氣騰騰的餃子、"奇跡"一詞、滑雪板、字母Z
第四行:馬桶、地鐵代幣、靜音圖標、香水瓶、蜻蜓、滑板頭盔
第五行:藍牙圖標、數字13、綠色愛心、魔方、加拿大鵝、軍用頭盔
第六行:白色小狗、救生衣、繩結、鍵盤、紙巾盒、數字14
這是Banana2的,雖然單個元素的畫風會比GPT Image 1.5順眼,但確實列數超過了,有些元素重復生成,
![]()
GPT Image 1.5,
![]()
第一局用的是GPT Image 1.5的case,第二局輪到Banana2的主場了,
生成一張3:4的圖片,畫面上方用書法寫著一首完整的《茅屋秋風所破歌》,內容是【完整全文】,每個字上方都要標注上漢語拼音,同時畫面內容主要用水墨畫的形式展示這首詩所表達的情景。
看來GPT Image 1.5的中文還沒訓練夠完整,中文錯字好高,反而是拼音注音的準確率還高點,
![]()
Banana2做出來的長這樣,
![]()
OK。馬上進入第三局世界知識PK,還是Banana2的主場case,這次就直接開始圖生圖了,
![]()
這是中國最高橋梁花江峽谷大橋的照片,描述這個橋梁的基本信息,圖像標題為花江峽谷大橋的中英文并有矩形框,包括尺寸,寬度,高度,主纜長度,建成日期等,保證原圖不變,信息以手寫標注的形式添加在圖中,并標在對應位置。在空白處畫出橋梁主纜的剖面原理示意和懸索橋基本原理示意。
第一眼我真的有被唬到,
但我發現數值跟Banana2有點不太一樣,這張圖里橋面離水面的高度數據最大跨度是對的,其他的都是錯誤的。
![]()
Banana2做出來的數據的正確率高很多,
![]()
看來要降低一點難度,做點信息圖或者海報了。
還有就是我真沒有欺負GPT Image 1.5,生成過程也是會用到GPT 5.2補充知識的,所以通過經緯度還是可以做對應地點的歷史海報的。
![]()
用一組圖,描繪公元前260年5月至10月之間,東經112°41到113°09′,,北緯35°39′到35°59′ 發生的事情,并給出詳細的信息圖,圖上要用中文說明發生了什么事情,以及結果的重要信息
GPT Image 1.5,
![]()
Banana2,
![]()
測到現在感覺沒啥懸念,1.5有點壓不住2啊,
OpenAI還給GPT Image 1.5列出了幾個小的質量更新,比方說生成非常非常非常非常多的小面孔也不會崩。
成千上萬的人群聚集在上海東方明珠前。人群中每個人的臉都必須清晰可見。
Banana2做出來的長這樣,
![]()
一拉大的話從第四列的人開始臉就開始崩了
![]()
但GPT Image 1.5做出來的這個真的會偽人到我做噩夢的程度,優化在哪了?
![]()
還有什么能測的呢?
多圖融合和精確修改還可測測看,
因為ChatGPT一次只能上傳10個圖片,所以我傳了10個毛茸茸做多圖融合
![]()
一張中景照片,10 個毛茸茸的角色擠在一起,并排坐在磨損的米色布沙發上和地板上。他們都面向前方,看著放在沙發前低矮木桌上的一個復古木盒電視機。房間光線昏暗,左側窗戶透進溫暖的光線,電視發出的光芒照亮了生物的面孔和毛茸茸的質感。背景是一個舒適、略顯雜亂的客廳,有編織地毯、擺滿舊書的書架,以及背景中的一些鄉村風格廚房元素。整體氛圍溫暖、舒適且充滿樂趣。
這個case就有點區分不出來哪個比較好了,兩個都有漏角色,重復生成的,GPT Image 1.5是少生成了一個,Banana2是多生成了一個,
GPT Image 1.5,
![]()
Banana2,
![]()
圖像修改的話,GPT Image 1.5剛好碰上Banana2更新了,上傳圖片的時候可以畫圈,箭頭,文字來指定修改,
![]()
左側case沒找到出處,右側是@歸藏佬做的
讓GPT Image 1.5也挑戰一下吧,
![]()
畫面我是真沒太看出來明暗有什么變化,但是劃線花圈文字啥的確實都抹除了,換個case來看會更加明顯,三個不同顏色的圈圈成功了一個。
![]()
OpenAI也主動承認了GPT Image 1.5在風格化上會比上一代要差,想要表現好的話可以用提供的濾鏡,不過只有13種夠誰用啊。

再拉我也測試看看,
把圖一(柯南)轉真人,模仿圖二的風格生成一個帶2D插圖元素的真人街拍
![]()
可能是我做的時候對GPT Image 1.5沒抱太大期望,這把他居然是還行的,
![]()
左邊是GPT Image 1.5右邊是Banana2
把一張九宮格圖做成完整視頻目前應該是只有Sora2能做到,之前我都用Banana2做圖的,今天剛好也試試看GPT Image 1.5做的效果。
![]()
根據這張圖片推測該場景的事件時間線,以電影分鏡方式按發生順序制作成9格分鏡網格。
GPT Image 1.5生成的九宮格里面畫風偏了我就不挑了,問題是這個九宮格它前后有邏輯順序嗎?
![]()
Banana2做出來的邏輯性會強很多,
![]()
當然我這個沒有用原版的九宮格生成提示語(太長了放鏈接),
那個是會分析圖片里所有關鍵元素,強制對應真實世界里的某一個片子的。
GPT Image 1.5做出來的長這樣,也沒好多少。。。
![]()
最后我用Grok匯總了一下兩個模型的對比,
就更沒想到GPT Image 1.5有啥競爭力了,
可能就是生圖速度快點了,
但光快也沒用啊。。。
![]()
Greg給GPT Image 1.5站臺做的case也被Banana2比下去了。
![]()
對了對了,差點忘了當時Banana2驚艷我的線稿上色的case了,
給這張漫畫頁上色并翻譯成中文放到圖中原來的位置,保持構圖和圖片細節的一致
![]()
![]()
從左到右是原圖,Banana2,GPT Image 1.5
還有還有還有,測到停不下來了,
從專業的角度詳細解釋AI視頻生成模型的訓練原理并制作一頁蠟筆小新手繪風格的英文PPT,加入比較多的文字和案例進行輔助說明,讓蠟筆小新帶領大家一起學習的感覺,PPT頁面比例16:9
![]()
這一把又測到凌晨六點了,
該洗洗睡了,
這句話我送給我自己,
也送給GPT Image 1.5,
測試過程中發現Banana2懂中文已經把我養刁了,
別的缺點都可以忍,
不會中文是真忍不了一點
要不要考慮學學隔壁Sora2,
找點IP聯名后再來挑戰吧。
@ 作者 / 困得不行的卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.