一、創(chuàng)作的本質(zhì):一場(chǎng)"去馬賽克"游戲
首先,我們要打破一個(gè)幻想:AI 并不是像人類畫家那樣,先畫輪廓,再上色,最后修細(xì)節(jié)。AI 的創(chuàng)作過程,本質(zhì)上是一場(chǎng)"找回記憶"的游戲,學(xué)名叫「擴(kuò)散模型」(Diffusion)。
想象一下,你有一張清晰的照片,然后你往上撒了一把沙子(加噪)。你看得稍微模糊了點(diǎn)。你再撒一把,更模糊了。你撒了 50 次之后,這張照片就變成了一堆毫無(wú)意義的隨機(jī)噪點(diǎn),就像老式電視機(jī)沒信號(hào)時(shí)的那一屏"雪花"。
AI 干的事兒,就是學(xué)會(huì)把這個(gè)過程"倒放"。你給它一屏完全隨機(jī)生成的"雪花"(純?cè)肼暎⒅戳艘粫?huì)兒,說:"哎?我覺得這堆噪點(diǎn)下面藏著一個(gè)宇航員。"然后它開始瘋狂計(jì)算,一步步把噪點(diǎn)拿走,把那張它"腦補(bǔ)"出來(lái)的宇航員還原出來(lái)。
這就是為什么早期的 AI 圖有時(shí)候很奇怪,因?yàn)樗窃谝欢鸦靵y中強(qiáng)行尋找秩序。這玩意兒的靈感其實(shí)來(lái)自物理學(xué)里的布朗運(yùn)動(dòng)——就像一滴墨水在水里擴(kuò)散開一樣,AI 就是要把散開的墨水強(qiáng)行給聚回去。
知識(shí)點(diǎn)吐槽:以前科學(xué)家覺得,AI 應(yīng)該一步一步倒推每一點(diǎn)點(diǎn)噪音是怎么加上去的。結(jié)果發(fā)現(xiàn)這幫 AI 學(xué)得慢,根本學(xué)不會(huì)。后來(lái)伯克利的大神們換了個(gè)思路:別管中間怎么變的,你直接給我猜這張圖原本長(zhǎng)啥樣,或者猜這里面一共加了多少噪!結(jié)果 AI 瞬間學(xué)會(huì)了。
![]()
二、AI怎么聽懂人話?數(shù)學(xué)界的"連連看"
這就帶來(lái)一個(gè)問題:我給 AI 一堆噪點(diǎn),它怎么知道我要的是"貓"還是"狗"?萬(wàn)一我想要個(gè)妹子,它給我畫個(gè)只有影子的沙漠咋辦?
這就要請(qǐng)出另一位大神:CLIP 模型。這哥們兒是 OpenAI 在 2021 年搞出來(lái)的,它的特長(zhǎng)是玩"連連看"。
CLIP 看了互聯(lián)網(wǎng)上 4 億張圖片和它們對(duì)應(yīng)的文字說明。它的腦子里有一個(gè)巨大的、高維度的"概念宇宙"。在這個(gè)宇宙里,文字和圖片不再是兩個(gè)物種,而是變成了數(shù)學(xué)向量。
重點(diǎn)來(lái)了:在這個(gè)空間里,意思相近的東西,距離就近。"一張貓的照片"這段文字的坐標(biāo),和"一只真貓的圖片"的坐標(biāo),在這個(gè)宇宙里幾乎貼在一起。
更神奇的是,這玩意兒能做減法!如果你把"我戴帽子的照片"減去"我不戴帽子的照片",得到的那個(gè)差值向量,去文字堆里一搜,竟然精準(zhǔn)對(duì)應(yīng)單詞"Hat"(帽子)。
所以,當(dāng)你輸入提示詞時(shí),CLIP 就把你的文字變成一個(gè)向量指路標(biāo),告訴那個(gè)負(fù)責(zé)畫畫的擴(kuò)散模型:"嘿,別瞎猜了,往這個(gè)方向去噪!那邊全是貓!"
?? 三、為什么AI還需要"引導(dǎo)"?
理論上有了指路標(biāo),AI 應(yīng)該能畫得很好對(duì)吧?并不。
AI 其實(shí)是個(gè)"選擇困難癥"患者。如果你只是溫和地告訴它"給我畫棵樹",它通常會(huì)給你畫一個(gè)極其模糊、只有平均水平的圖。為什么?因?yàn)樵谒挠?xùn)練數(shù)據(jù)里,樹有千萬(wàn)種樣子,它不知道你想要哪種,索性給你取了個(gè)平均值。
就像你問朋友"吃什么",朋友回一句"隨便",結(jié)果就是啥也吃不成。
為了治好 AI 的選擇困難癥,工程師們想出了一招,叫**「無(wú)分類器引導(dǎo)」(Classifier-Free Guidance)**。
這招的操作很"精準(zhǔn)":讓 AI 先根據(jù)你的提示詞(比如"狗")畫個(gè)方向。再讓 AI 假裝沒聽見你的話,隨便畫個(gè)方向(指向大數(shù)據(jù)的平均值)。用"狗"的方向,減去"隨便"的方向,然后把這個(gè)差值放大好幾倍!
簡(jiǎn)單說就是:AI:"我覺得大部分圖長(zhǎng)這樣。"你:"不!我要狗!離那個(gè)平均值遠(yuǎn)點(diǎn)!再遠(yuǎn)點(diǎn)!"
通過這種"遠(yuǎn)離平庸"的修正,原本模糊的圖像瞬間清晰了,那棵樹不僅長(zhǎng)出來(lái)了,還枝繁葉茂。
更有趣的是負(fù)向提示詞(Negative Prompt)。你可以專門寫上"不要六個(gè)手指"、"不要卡通風(fēng)"。AI 就會(huì)計(jì)算出這些怪東西的向量,然后往反方向走。
四、AI的終極哲學(xué)
看完這些,你會(huì)發(fā)現(xiàn)現(xiàn)在的視頻生成模型,其實(shí)就是把這個(gè)過程加上了時(shí)間軸。
最讓我深思的是,這一切復(fù)雜的藝術(shù)創(chuàng)作,底層的邏輯竟然如此簡(jiǎn)單:從混亂(噪聲)中尋找秩序,用語(yǔ)言(向量)引導(dǎo)方向。
以前我們覺得藝術(shù)是人類獨(dú)有的能力,需要幾十年的苦練。現(xiàn)在看來(lái),藝術(shù)可能只是高維空間里的一組坐標(biāo)。
你不需要畫筆,不需要懂光影,你只需要會(huì)說話。語(yǔ)言,就是新的創(chuàng)作工具。
轉(zhuǎn)發(fā)給那個(gè)總說"AI就是復(fù)制粘貼"的朋友——他/她可能不知道,AI的"腦補(bǔ)"能力背后,藏著這么有意思的科學(xué)原理。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.