網易首頁 > 網易號 > 正文申請入駐

Nano Banana，OpenAI你學不會

2025-11-24 16:08:47　來源: 直面派

北京舉報

分享至

奧特曼向OpenAI的全體員工發了一封內部信，他坦言道，雖然OpenAI仍處于領先地位，但是谷歌正在縮短差距。并奧特曼也承認，正是由于谷歌最近一系列的產品發布，為OpenAI帶來了不小的壓力。

事實也正如奧特曼所言，谷歌這次帶來的，除了贏得滿堂彩的Gemini 3 Pro，還有讓整個AIGC圈震撼的Nano Banana Pro。在此之前，所有生圖模型的底層邏輯都是臨摹世界。通過海量的數據庫，尋找最接近描述的圖，將其拼湊給你。

而Nano Banana Pro的出現，則徹底打破了這個規則。它并不是在“畫圖”，而是在“模擬物理世界”。其最大的突破在于，引入了思維鏈（Chain of Thought）推理機制，先讓模型進行思考，再去畫圖。

在落下第一個像素之前，模型會先在潛空間內進行邏輯推演，計算物體的數量、確定光影的投射角度、規劃空間嵌套關系。它不再依賴文本作為中轉站，推理結果直接以高維向量的形式指導像素生成。

那么問題來了，為什么OpenAI開發不出Nano Banana Pro？

在回答問題之前，不妨先看看Nano Banana Pro，它和OpenAI現在生圖主要使用的GPT-4o到底有何區別。

以“三個蘋果”的生成任務為例，提示詞為：“左側蘋果帶有咬痕，中間蘋果附著水珠，右側蘋果呈現腐爛狀態”。面對這一指令，GPT-4o通常會迅速生成一張色彩明艷、構圖完美的圖像。

但在細節核驗時往往暴露出概率生成的缺陷，中間蘋果上面的水珠其排布不符合客觀規律，而右邊蘋果的腐爛看起來又過于刻意。

相比之下，Nano Banana Pro輸出的圖像不僅數量精確，且每個對象的屬性都嚴格對應——左側的缺口、中間的折射光感、右側的氧化紋理，均被精準還原。

這種表象差異的背后，是兩條截然不同的技術路徑。

GPT-4o的生成機制本質上基于統計學相關性，它在海量訓練數據中檢索“蘋果+咬痕”的視覺特征，并通過概率分布進行拼貼與融合。它并未真正理解“三個”的數量概念，也未構建“腐爛”的物理模型，僅是根據高維空間中的特征距離進行近似匹配。

而Nano Banana Pro引入了思維鏈(Chain-of-Thought, CoT)機制，將圖像生成過程從單純的“像素預測”升級為“邏輯推演”。在落下第一個像素前，模型內部已完成了一輪符號化的規劃：首先確立實體對象(Object 1, 2, 3)，隨即分配空間坐標，最后綁定物理屬性。

針對“咬痕”，它推演的是幾何形態的改變；針對“水珠”，它計算的是光學反射與折射的物理規律；針對“腐爛”，它模擬的是材質屬性的演變。這是一套從語義理解到邏輯規劃，再到執行生成的全鏈路閉環。

這種機制在處理涉及物理規律的復雜場景時優勢尤為凸顯。

提示詞“窗臺上的半杯水，陽光從左側射入”。

GPT-4o所生成的圖片，僅0具備視覺合理性，但在物理上自相矛盾的光影關系。此時，窗臺左側應存在由玻璃杯反射出來的陽光，但是圖片中僅存在右側折射出來的光線。

而具Nano Banana Pro會先行計算光源向量，推導陰影投射方向以及液體介質的光線折射率。這種基于物理常識的推理，使得生成結果不再是視覺元素的堆砌，而是對物理世界的數字模擬。

更為深層的架構差異在于，OpenAI目前的體系存在顯著的“文本信息瓶頸”(Text Information Bottleneck)。在ChatGPT中調用繪圖功能時，用戶的簡短指令往往會被GPT改寫為一段詳盡的Prompt，再傳遞給圖片生成模型。

這一過程看似豐富了細節，實則引入了噪聲。文本作為一維的線性信息載體，在描述三維空間關系、拓撲結構及復雜的物體屬性綁定時，存在天然的低帶寬缺陷。改寫過程極易導致原始意圖中的關鍵約束被修飾性語言淹沒，造成信息的有損傳輸。

此外，漢字對于圖片生成大模型來說也是一個噩夢。GPT-4o在很長時間里，寫字都是“亂碼生成器”，甚至讓它寫“OpenAI”，它都能寫成“OpanAl”或者一堆奇怪的符號。

我讓GPT-4o以字母榜LOGO為參考，生成一個字母榜的招牌。

但Nano Banana Pro實現了對文字的精準控制。在同樣的提示詞下，Nano Banana Pro提取出了上方的字母榜，左右兩側的A和Z，以及最下方的弧線，并將這些元素置于不同的圖層、不同的材質。

Nano Banana Pro則采用了原生多模態(Native Multimodal)架構，這是一種統一模型的解決方案。

用戶的輸入在模型內部直接映射為包含語義、空間及物理屬性的高維向量，無需經過“文本-圖像”的轉譯中介。這種端到端的映射關系，如同建筑師直接依據藍圖施工，而非依賴翻譯人員的口述傳達，從而根除了中間環節的信息熵增。

但這也造成了另外一個問題，提示詞門檻被拉高了。我們回到一開始三個蘋果的提示詞上。

這是輸入給GPT-4o的提示詞，簡單易懂，就是在描述畫面構成。

而這是給Nano Banana Pro的提示詞。看起來就像Python代碼一樣，通過函數和（）來控制生成的圖片。

在涉及計數、方位布局、多物體屬性綁定(Attribute Binding)等精確控制任務上，Nano Banana Pro表現出色。它能清晰區分不同對象的屬性歸屬，避免了擴散模型常見的“屬性泄露”問題(如將紅杯子的顏色錯誤渲染到藍杯子上)。

當然，GPT-4o依然保有其獨特的生態位。其優勢在于推理速度與基于RLHF(人類反饋強化學習)調優后的審美直覺。

由于剝離了復雜的邏輯推理環節，其生成效率更高，且更能迎合大眾對高飽和度、戲劇化光影的視覺偏好。對于追求視覺沖擊力而非邏輯嚴謹性的通用場景，GPT-4o依然是高效的選擇。

然而，當需求從“好看”轉向“準確”，從“相關性”轉向“因果性”，Nano Banana Pro所代表的“先思考、后執行”模式便構成了降維打擊。它犧牲了部分的生成速度與討好眼球的濾鏡感，換取了對物理邏輯的忠實還原。

橘生淮南則為橘，生于淮北則為枳。Nano Banana Pro和GPT-4o之所以會有如此的差距，正是因為其開發者，谷歌和OpenAI在AI這條路上，選擇兩種完全不同的發展方向。

谷歌選擇的是“原生多模態”這條路。

就是從模型訓練的第一天起，文本、圖像、視頻、音頻就混在一起，扔進同一個神經網絡里讓它學。在Gemini的眼里，一這些事物本質上沒有區別，都是數據。它不需要先把圖片翻譯成文字，再去理解文字。

這就像一個人從小就會說中文、英文、法文，這三種語言在他腦子里是同時存在的，他不需要先把英文翻譯成中文再思考。

而OpenAI走的是“模塊化拼接”這條路。

它的邏輯是，讓專業的人做專業的事。GPT-5負責理解語言和邏輯推理，GPT-4o負責生成圖像，Whisper負責處理語音。

每個模塊都做得很好，然后通過API把它們連起來。這就像一個團隊，有文案、有設計師、有程序員，大家各司其職，通過開會和文檔來協作。

這兩種路線，沒有絕對的對錯，但會導致完全不同的結果。

谷歌最大的優勢，來自于YouTube。這是全世界最大的視頻庫，里面有幾十億小時的視頻內容。這些視頻不是靜態的圖片，而是包含了時間序列、因果關系、物理變化的動態數據。Gemini從一開始就是“看這些視頻長大的”。

換句話說，Gemini從誕生之初，就理解物理世界的基本運行邏輯。杯子掉在地上會摔碎，水倒進杯子里會形成液面。這些東西不是靠文字描述學來的，而是通過看真實世界的視頻，自己總結出來的。

所以當你讓Nano Banana Pro畫“一個杯子從桌子上掉下來的瞬間”，它不會畫出一個漂浮在空中、姿態僵硬的杯子。它會畫出杯子在下落過程中的傾斜角度，杯子里的水濺起來的形態，甚至是杯子即將觸地時周圍空氣的擾動感。因為它見過太多這樣的場景，它知道真實世界是怎么運作的。

除了YouTube，谷歌還有另一個護城河：OCR。谷歌做了幾十年的光學字符識別，從Books到Lens，谷歌積累了全球最大的“圖片-文字”對齊數據庫。這直接導致了Gemini在文字渲染上的碾壓性優勢。

它知道漢字在圖片里應該長什么樣，知道不同字體、不同大小、不同排列方式下，文字應該怎么呈現。這也是為什么Nano Banana Pro能精準識別漢字。

反觀OpenAI，它的起家靠的是文本。從GPT-1到GPT-3再到GPT-5，它在語言模型上一路狂奔，確實做到了世界頂級。但視覺能力是后來才加上去的。

DALL-E早期是獨立發展的，訓練數據主要來自網絡抓取的靜態圖片，來自Common Crawl這樣的數據集。這些圖片質量參差不齊，而且都是靜態的，沒有時間維度，沒有物理過程，沒有因果關系。

所以DALL-E學到的，更多是“這個東西大概長這樣”，而不是“這個東西為什么長這樣”或者“這個東西會怎么變化”。它可以畫出一只很漂亮的貓，但它不理解貓的骨骼結構，不理解貓的肌肉如何運動，不理解貓在跳躍時身體會呈現什么姿態。它只是見過很多貓的照片，然后學會了“貓長這樣”。

更關鍵的是訓練方式的差異。

正是因為OpenAI走的是RLHF路線。所以他們雇了大量的人類標注員，給生成的圖片打分：“這張好看嗎？”“這張更符合要求嗎？”標注員們在選擇的時候，自然而然會傾向于那些色彩鮮艷、構圖完美、皮膚光滑、光影戲劇化的圖片。

這導致GPT-4o被訓練成了一個“討好型人格”的畫家。它學會了怎么畫出讓人眼前一亮的圖，學會了怎么用高對比度和飽和色來抓住眼球，學會了怎么把皮膚修得像瓷器一樣光滑。但代價是，它犧牲了物理真實感。

GPT-4o生成的圖片，有一種很典型的“DALL-E濾鏡”。皮膚像涂了蠟，物體表面特別光滑，光影過度戲劇化，整體感覺就是“一眼假”。它不敢畫出皮膚上的毛孔，不敢畫出布料的褶皺，不敢畫出不完美的光照。因為在訓練過程中，那些帶有瑕疵的、粗糙的、不那么“美”的圖片，都被標注員打了低分。

而谷歌沒有走這條路。Gemini的訓練更注重“真實”而不是“美”。世界本就如此，它沒有書本里描繪的那么美。

那么谷歌又是如何追上OpenAI，以至于讓奧特曼發內部信來強調危機感的呢？

谷歌選擇在“準確性”和“邏輯”上發力。谷歌將其稱為“Grounding”，也就是“接地氣”，也就是“真實性”。

為了實現這個目標，谷歌把思考過程，引入了圖像生成過程。這個決策會大大增加計算成本，因為在生成圖像的時候加入推理步驟，生成速度也就變慢了。但谷歌判斷這個代價是值得的，因為它換來的是質的提升。

當你給Nano Banana Pro一個提示詞，比如“畫一個廚房，左邊是冰箱，右邊是灶臺，中間的桌子上放著三個碗”，模型不會直接開始畫。它會先啟動思維鏈：

首先，識別場景類型：廚房。然后，識別對象：冰箱、灶臺、桌子、碗。接著，確定空間關系：冰箱在左，灶臺在右，桌子在中間。再確定數量：三個碗。然后推理物理邏輯：廚房里通常會有什么光源？桌子應該離冰箱和灶臺多遠才合理？三個碗應該怎么排列？最后，確定視角和構圖：從什么角度看這個場景最合適？

這一整套思考完成后，模型會在內部生成一些“思考圖像”，這些圖像用戶看不到的，但它們幫助模型理清了思路。最后，模型才開始生成真正的輸出圖像。

這個過程看起來復雜，但它解決了一個核心問題：讓模型“理解”而不是“猜測”。

GPT-4o以及市面上絕大多數生成圖片的模型，都是靠概率猜，“用戶說廚房，那我就把我見過的廚房元素拼起來，大概就對了。”

而Nano Banana Pro則是真正去理解廚房這個概念：“用戶說廚房，廚房是用來洗菜做飯的，所以這個廚房需要滿足這些空間關系和物理邏輯，我要按照這個邏輯來構建。”

反觀OpenAI，它目前的策略是把最強的推理能力集中在o1系列模型上，也就是之前代號為Strawberry的項目。o1在數學推理和代碼生成上確實很強，它能解決一些人類數學家都覺得有挑戰的問題，能寫出復雜的算法代碼。

至于圖像生成，OpenAI的判斷是：目前GPT-4o的“直覺式”生成已經足夠好了，足夠維持用戶體驗，足夠在市場上保持領先，并不需要繼續提升。

還有一個因素是產品理念的差異。OpenAI一直強調的是PMF，也就是Product-Market Fit，產品市場契合度。它的策略是“快速迭代，快速驗證”。

DALL-E 3只要能通過提示詞和GPT-4拼起來用，那就先發布，先占領市場。后臺的架構可以慢慢改，用戶看不見的地方可以慢慢優化。

這個市場策略被稱為“膠水科技”，其最大的弊端在于積累的技術債太多了。當你一開始選擇了模塊化拼接的架構，后面想要改成原生多模態，就不是簡單地加幾行代碼的問題了。這可能需要重新訓練整個模型，需要重新設計數據管道，需要重新構建工具鏈。

谷歌慢工出細活，可他們也有自己的難處。

原生多模態模型的維護成本也更高。如果你想提升圖像生成能力，就需要調整整個模型。這就是為什么，Nano Banana Pro只能伴隨著Gemini 3的更新，沒辦法自己單獨更新。

這種“按下葫蘆浮起瓢”的問題，在模塊化架構里就不存在，因為當你你只需要優化圖像生成模塊，根本不用擔心影響到文本模塊。

所以OpenAI確實沒辦法訓練出來Nano Banana Pro。

然而這并不意味著谷歌可以高枕無憂了，因為AI領域迭代速度太快了。我敢打賭，不出半個月，就會有一大幫生圖模型問世，直接對標Nano Banana Pro。

歡迎在評論區留言~
如需開白請加小編微信：dongfangmark

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

誰還敢說谷歌掉隊？2025年，它打了一場漂亮的翻身仗

機器之心Pro 2025-12-24 17:49:01
4 跟貼 4
不裝了！LeCun哈薩比斯神仙吵架，馬斯克也站隊了

量子位 2025-12-24 17:08:39
5 跟貼 5

用AI代碼替換Windows里每一行C/C++！微軟回應了

量子位 2025-12-25 21:44:55
4 跟貼 4

通過視覺安全提示與深度對齊實現大型視覺語言模型的安全對齊

機器之心Pro 2025-11-24 16:37:06
0 跟貼 0
螞蟻數科王磊：垂直大模型訓練成本呈百倍級下降，金融AI落地需構建“可信智能體”三大基石 | Alpha峰會

華爾街見聞官方 2025-12-23 18:55:53
0 跟貼 0

MeshCoder：大語言模型驅動，點云到可編輯結構化物體代碼的革新

機器之心Pro 2025-11-10 15:28:58
0 跟貼 0

機器人統一神經系統面世，實現蛇般思考，讓避障決策如同神經反射

DeepTech深科技 2025-12-24 21:06:23
2 跟貼 2
物理學變天！「AI主導」論文首次登頂刊，人類科學家淪為驗證者？

新智元 2025-12-25 12:38:08
14 跟貼 14

荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
字節Seed發布最強數學模型：一招“打草稿”，IMO銀牌變金牌

量子位 2025-12-25 14:13:53
0 跟貼 0
大模型也會賭博上癮！理智出走！

量子位 2025-11-03 07:06:08
0 跟貼 0
李飛飛發起機器人家務挑戰賽，老黃第一時間批錢贊助

量子位 2025-10-13 09:30:54
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
五八智能四足機器人平臺Q20A 不止跑跳整活還能維護公共安全

量子位 2025-09-30 10:01:00
0 跟貼 0
機器人終于有自己的真機評測大考了

量子位 2025-10-15 20:05:44
0 跟貼 0
機器狗被鋸腿也能繼續走，Skild Brain估值45億美元

量子位 2025-09-27 17:49:32
0 跟貼 0
未來醫生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
靈巧手作為獨立執行平臺，實現工業與家庭場景應用

量子位 2025-12-11 03:38:13
0 跟貼 0
波士頓機器狗練成“輕功”！連續七個后空翻

量子位 2025-09-07 01:03:18
0 跟貼 0
DeepMind負責人：2036 AI意識覺醒？LeCun怒懟：LLM路線全錯！

新智元 2025-12-16 16:55:25
0 跟貼 0
Nano Banana終于不是文盲了，但我可能會變「傻」

愛范兒 2025-11-24 14:33:39
0 跟貼 0
下一代谷歌頭顯，XREAL x Google 定義混合現實頭顯

愛范兒 2025-12-10 05:12:08
0 跟貼 0
福建干部去西北任職，不帶翻譯可不行

朱熹愛追劇 2025-12-23 17:59:58
1 跟貼 1
女生買巖板 ai說進不了電梯，不信邪手搓模型測試這不是能進嗎？

河南都市頻道 2025-12-24 11:43:14
332 跟貼 332
不止靠訂閱？ChatGPT被曝將引入廣告模式，OpenAI或將試探商業化新路徑

智東西 2025-12-25 18:07:15
1 跟貼 1
黃仁勛：中國的AI市場無論有沒有英偉達都會進步與華為是競爭對手不是敵人

財聯社 2025-07-21 10:22:14
7 跟貼 7
話說這么翻譯，不會挨打嘛

大金看記錄片 2025-12-21 10:16:51
3 跟貼 3
黃仁勛200億美元帶走「TPU核心班底」

量子位 2025-12-25 12:03:33
1 跟貼 1
事關與柬埔寨合作攜程緊急聲明

界面新聞 2025-12-25 11:55:08
65117 跟貼 65117
谷歌地圖為什么打不開

老詩才是我的外號 2025-12-26 00:12:12
1 跟貼 1
當千億參數撞上5毫米芯片

鈦媒體APP 2025-12-10 11:10:12
0 跟貼 0
河南小學火災，老師救學生后獲刑，家長喊冤，網友質疑問責邏輯！

主持人老李 2025-12-25 21:48:10
15 跟貼 15
讓小咪勞斯看看這翻譯怎么樣！又in又after的

一口淪陷小館 2025-12-23 14:08:23
1 跟貼 1
函數圖像的判斷中考易錯題，競賽題你能做出來嗎？

馬老師數學課堂 2025-12-25 11:37:56
0 跟貼 0
南京大學聯合美團、上交破解主流視頻生成模型安全漏洞

機器之心Pro 2025-12-25 15:23:57
0 跟貼 0
他47歲轉方向，一舉解決了球體堆積領域內最大的未解問題

機器之心Pro 2025-07-10 14:12:12
3 跟貼 3
架構解耦是統一多模態模型所必須的嗎？全新AIA損失：No

機器之心Pro 2025-12-02 14:25:38
0 跟貼 0
中國文字是世界文化，不管那國語言，她都能夠翻譯！

一洋搞笑 2025-12-24 09:12:58
1 跟貼 1
比亞迪王傳福：做大產業，做出中國制造業應有的位置

每日經濟新聞 2025-07-22 17:51:59
15 跟貼 15

直面派

講述值得講述的真實故事

241文章數 236關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

教育

旅游

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Nano Banana，OpenAI你學不會

小米17Ultra發布，徠卡2億像素 ，6999元起

俄軍中將在汽車炸彈爆炸中身亡 俄軍報復

俄軍中將在汽車炸彈爆炸中身亡 俄軍報復

約基奇有多喜歡馬？

朱孝天把阿信好意當球踢！

新規來了，年化超24%的小貸被即刻叫停

速來！智界在上海西岸準備了年末潮流盛典

態度原創

太猛了！單月新增企業4.1萬家，又一波巨頭涌向海南！

英國這兩年給我們的感覺是窮瘋了！

澤連斯基版“和平計劃”透露哪些信息

小米17Ultra發布，徠卡2億像素，6999元起

俄軍中將在汽車炸彈爆炸中身亡俄軍報復

俄軍中將在汽車炸彈爆炸中身亡俄軍報復