最近AI畫畫技術真是火得不行,FLUX.1、Emu3這些模型畫出來的美女帥哥、風景照,不仔細看真分不出是真是假。
但你讓它們畫個“貓在窗戶里面”,結果貓腦袋探到窗外去了,說要“三個蘋果”,畫面里數來數去總有四個。
這些小錯誤看著好笑,其實暴露了大問題。
![]()
這些模型就像只會背模板的學生,遇到簡單題還行,稍微復雜點的空間關系、物體怎么互動,立馬露怯。
用戶要的是“桌子上的書靠著臺燈”,它給你來個“臺燈壓著書”,這種邏輯混亂的情況,在專業場景里根本沒法用。
說到這里,可能有人會問,以前的研究者難道沒想過解決這些問題嗎?還真不是,他們試過兩種辦法,但效果都不太理想。
一種是“謀定而后動”,生成前先規劃好每一筆,結果太死板,畫到一半想調整都不行。
![]()
另一種是“亡羊補牢”,畫完了再回頭改,改來改去耗時不說,畫面還容易糊。
這兩種思路走不通,就需要新方法了。
這個想法其實借鑒了大語言模型的“思維鏈”,但反著來用了。
![]()
舉個例子,畫“戴紅帽子的貓坐在沙發上”,傳統模型可能一筆畫到底,畫完才發現帽子顏色不對。
這種即時修正的本事,可比畫完重畫省事兒多了。
![]()
那AI怎么知道啥時候該停呢?研究團隊給它定了個“思維時間表”。
一幅畫從上到下分成背景、主體、細節三部分,每部分畫完就強制“思考”。
比如畫人物,先畫上面的背景,停,再畫中間的人物主體,停,最后畫下面的地面細節,停。
這種分段思考的方式,跟咱們畫畫時“先整體后局部”的習慣還挺像。
每次“思考”的時候,AI得說清楚兩件事,現在畫到哪了,下一步要干啥。
![]()
比如畫蘋果,它會記錄“已畫兩個紅蘋果在盤子左側”,然后計劃“下一步畫第三個綠蘋果在盤子右側”。
這種“微型路書”比一開始給的籠統指令管用多了,目標明確,不容易跑偏。
最聰明的是它改畫的方式。
傳統模型要么不改,要改就整個重畫,費時費力。
TwiG只改出錯的局部,比如蘋果數量多了,就擦掉多出來的那個,其他部分不動。
![]()
這種“最小改動原則”,既保證了畫面連貫,又節省了時間。
搞出這個框架后,研究團隊還做了不少實驗。
一開始沒訓練的時候,TwiG直接套在現有模型上就能用,在復雜場景測試里表現比原來好不少。
再后來用強化學習讓它自己跟自己較勁,優化什么時候停、怎么改,現在在空間關系、物體數量這些難題上,已經能跟FLUX.1、Emu3這些大牌模型掰掰手腕了。
![]()
我覺得TwiG最厲害的不是畫得更像,而是讓AI畫畫有了“可解釋性”。
以前AI畫錯了,你不知道它為啥錯,改都沒法改。
這種透明化的創作過程,對專業領域太重要了。
![]()
視頻生成不是總出“穿幫鏡頭”嗎?可以讓AI每幀都思考下“上一幀人物在左邊,這一幀不能突然跑到右邊”。
3D建模總出結構錯誤?讓AI邊建邊想“這里應該是直角,不能歪”。
這么看來,TwiG可能不只是優化了一個模型,而是給整個視覺生成領域提供了一種新的“創作邏輯”。
當然了,現在TwiG還不算完美。
![]()
但比起傳統模型“閉著眼睛畫”,這種“睜著眼畫”的進步已經很明顯了。
說不定再過兩年,我們讓AI畫個“客廳里三只貓分別趴在沙發、茶幾、地毯上”,它能清清楚楚給畫出來,再也不會數錯數、擺錯位置了。
說到底,AI畫畫的終極目標不就是“想畫啥就畫啥,畫啥像啥”嗎?TwiG范式用“邊畫邊想”的笨辦法,反而可能走了條最靠譜的捷徑。
畢竟,不管是人還是機器,做事多想想、多看看,總沒錯。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.