還在熬夜做圖的設計師們,這下真的有些尷尬了:在幾乎沒有預告的情況下,OpenAI 于北京時間 2026 年 4 月 22 日凌晨發布了 ChatGPT Images 2.0 模型(下文簡稱 Images 2.0)。
和 ChatGPT 原本的生圖模型相比,Images 2.0 在圖片精度、語言支持、分辨率支持和交互方式上都有著相當顯著的提升。值得一提的是,這次發布的 Images 2.0 甚至還擁有了思考的能力。
![]()
圖片來源:OpenAI
簡單來說,Images 2.0(現已在 ChatGPT、API 中使用)其實包含兩個模型(分支):
1. 快速模型(Instant Model)可以處理絕大多數日常任務,比如制作 Logo、多語言海報甚至是文章配圖;
2. 思考模型(Thinking Model、需手動切換)可以通過網絡查找相關信息,并在生圖前先對內容進行推理,并在一組輸出中保證畫面內容連貫。
接下來我們直接用圖片來舉例。
下面這張照片是雷科技 AWE26 報道團出發前拍的合照,我們直接把這張圖丟給 ChatGPT、輸出我們的需求:
![]()
圖片來源:雷科技
做一本《雷科技》科技雜志的封面,封面是圖片里這幾個人。
不到一分鐘,ChatGPT 就把封面做好了。可以看到全新的 Images 2.0,不僅不會把基礎圖片重繪(這是大多數生圖 AI 的通病),甚至連中文的部分都能正確繪制。
![]()
圖片來源:雷科技
但這還沒完,在提出「日期改成 2026 年 3月」「人的姿勢可以變一下,這樣太死板了」等模糊的提示詞后,ChatGPT 依舊能順利完成任務。
![]()
圖片來源:雷科技
同樣的,只要「喂」給 Images 2.0 一張手機外觀,ChatGPt 也能直接完成手機使用場景照。
![]()
圖片來源:雷科技
而在全新的圖片查看界面,ChatGPT 還加入了兩項全新的功能——我們可以直接選擇圖片需要修改的區域,要求 ChatGPT 做出修改,還可以直接在長寬比選單中選擇需要輸出的圖片比例,自媒體配圖變得更方便了。
![]()
除了基于圖片生成新的圖片,Images 2.0 基于文字做圖的能力也有所提升。雷科技只給出了「電車通馬上要出發報道 2026 北京車展」的信息,Images 2.0 就能自己找齊相關信息,并正確輸出海報。
![]()
圖片來源:雷科技
較為可惜的是,盡管在 OpenAI 的直播中,Images 2.0 可以正確處理二維碼信息,但雷科技經過多次嘗試,仍無法在圖片中嵌入可以被識別的二維碼。
![]()
圖片來源:雷科技
其實從效果來看,Images 2.0 的多語言支持已經非常出色了。但為了拉開能力差距,雷科技決定給 Images 2.0 上點強度:
生成一個照片風格圖片:一幅毛筆書法作品在博物館展出,上書: 北國風光,千里冰封,萬里雪飄。望長城內外,惟余莽莽;大河上下,頓失滔滔。山舞銀蛇,原馳蠟象,欲與天公試比高。須晴日,看紅裝素裹,分外妖嬈。 江山如此多嬌,引無數英雄競折腰。惜秦皇漢武,略輸文采;唐宗宋祖,稍遜風騷。一代天驕,成吉思汗,只識彎弓射大雕。俱往矣,數風流人物,還看今朝。
盡管文本內容更長,不過 ChatGPT 仍在一分鐘之內就輸出了結果。可以看出,Images 2.0 的中文支持確實不錯,字體字形基本沒有問題,但書法的「質感」仍有欠缺,怎么看都像是「印刷品」。
![]()
圖片來源:雷科技
說完 Instant Model,我們再來看看思考模式的能力。這次雷科技直接給 Images 2.0 準備了一道大題:
![]()
以上圖里的形象為漫畫主角,生成一部摩托車為主題的短篇漫畫,篇幅至少要 8 頁,封面和封底為彩色,其余為黑白,畫風參考石森章太郎。
接到需求后,Images 2.0 會有一個明顯的思考推理步驟;點開推理詳情,我們甚至能看到 Images 2.0 編寫對話的過程。這其實越正常,畢竟我并沒有給出任何關于劇情的提示詞,全權交給 Images 2.0 自由發布。
在耗時 11 分鐘后,Images 2.0 成功輸出了一組 8 張圖。值得注意的是,Images 2.0 不僅在 8 張圖中做到了畫風和細節的統一(除了時有時無的頭盔),甚至連劇情都能保持上下文連貫。這種超長連續推理能力,即使是 Nano Banana 也難以做到。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
也正因如此,雷科技認為,Images 2.0 的表現,完全可以用一騎絕塵來形容。
因為觸發了 ChatGPT Plus 用戶的公平使用限額機制,雷科技的 Images 2.0 體驗到這里就暫告一段落了。但就雷科技的體驗來說,Images 2.0 的能力上限遠不僅如此:
除了支持中文(及印地語、日語等多種亞洲語言)、連續推理等能力外,在直播中,OpenAI 還提到了Images 2.0 能在米粒上寫字的超精細制圖能力,以及生成 360 度全景照片的能力。
![]()
圖片來源:OpenAI
![]()
圖片來源:OpenAI
也正因 Images 2.0 制圖效果如此出色,雷科技認為 Images 2.0 的登場,也標志著 AI 生圖正式告別了那個靠玄學提示詞「抽卡」的蠻荒時代。
如果大家有玩過 Stable Diffusion 等早期文生圖 AI,應該對文生圖的「蠻荒時代」有印象:你可能第一次嘗試就做出了自己想要的圖片,也可能來來回回調整提示詞,用兩個小時生成了幾百 GB 的廢片,體驗甚至比二次元「抽卡手游」還要差——二游至少有保底機制。
在當時,我們如果想要保證圖片「有較大概率符合要求」,就必須用 ComfyUI;而 ComfyUI 復雜的節點設計,從某種意義上也違背了 AI 生圖「偷懶」的目標。
但 Images 2.0 引入「思考模型」后,AI 第一次具備了長文本邏輯解析與時空一致性的推理能力。
以剛剛提到的畫漫畫工作流為例,Images 2.0 可以先理解場景、構思劇情、布局文字,最后再落筆。這種從底層邏輯出發的進化,直接解決了 AI 繪畫中「文字崩壞」與「畫風不統一」這兩大問題,極大地拓寬了 AI 的生產力邊界。
![]()
圖片來源:OpenAI
可以肯定的是,Images 2.0 的出現,對于繪畫、攝影行業的沖擊極為「慘烈」;而從 AI 發展的角度看,OpenAI 也再次證明了單純的分辨率并不能從根本提升 AI 的工作效率,推理能力才是 AI 圖像的核心競爭力領域。
在 AI 圖像時代,OpenAI 已經為我們開了一個好頭。接下來,就得看 Google 和國內 AI 巨頭們該如何應對了。
2026第十九屆北京國際汽車展覽會將于4月24日至5月3日在北京?中國國際展覽中心(順義館)和首都國際會展中心(新國展二期)舉行,本屆車展以“領時代·智未來”為主題,集中展現汽車工業的更多黑科技。
比亞迪、小米、鴻蒙智行(問界等)、小鵬、蔚來、嵐圖等頭部品牌集結,多款重磅新車首秀;地平線、Momenta、卓馭等供應商集體秀肌肉,AI大模型深度賦能,高階智駕、動力電池、超快充技術等前沿科技集中亮相,看點拉滿!
雷科技旗下「電車通」將派出報道團直擊現場,以“關注電動車,更懂智能化”的專業視角,帶來一線獨家報道,敬請關注!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.