<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI視頻是如何生成的?

      0
      分享至


      (來源:麻省理工科技評論)

      這篇文章隸屬于《麻省理工科技評論》技術解讀專題。讓我們的作者為您梳理復雜紛繁的技術世界,助您洞察未來趨勢。

      對于視頻生成領域來說,2025 年是重要的一年。在過去的一年里,OpenAI 公開了 Sora,Google DeepMind 推出了 Veo 3,視頻初創公司 Runway 發布了 Gen-4。所有這些模型生成的視頻片段,幾乎無法與真實拍攝的素材或 CGI 動畫區分開來。今年,Netflix 還在其劇集《永恒族》(The Eternaut)中首次使用了 AI 視覺特效。

      當然,你在演示視頻中看到的片段都是經過精心挑選的,旨在展示公司模型處于最佳狀態時的表現。但隨著這項技術掌握在比以往任何時候都多的用戶手中——Sora 和 Veo 3 現已在 ChatGPT 和 Gemini 應用中向付費訂閱者開放——即便是業余的影視愛好者,現在也能通過 AI 制作出色的作品。

      負面影響在于,創作者正面臨大量低質量 AI 內容(AI slop)的競爭,社交媒體上也充斥著虛假的新聞片段。此外,視頻生成消耗的能源巨大,是文本或圖像生成的許多倍。

      既然 AI 生成的視頻無處不在,讓我們花點時間來探討一下其背后的技術原理。



      如何生成一個視頻?

      我們假設你只是一名普通用戶。現在有一系列高端工具允許專業視頻制作者將視頻生成模型整合到他們的工作流程中,但大多數人會通過應用程序或網站使用這項技術。流程你應該很熟悉:“嘿,Gemini,給我做一個獨角獸吃意大利面的視頻,然后讓它的角像火箭一樣發射升空。”你得到的結果可能好壞參半。通常你需要要求模型重新生成幾次甚至十次,才能得到與你預期大致相符的內容。

      那么,這一切的底層邏輯是什么?為什么結果會好壞參半?為什么它消耗這么多能源?最新一波視頻生成模型被稱為“潛在擴散 Transformer”(latent diffusion transformers)。沒錯,這個名字讀起來很拗口。讓我們依次拆解每個部分,從“擴散”開始。



      什么是擴散模型?

      想象一下,取一張圖像,并在上面隨機散布像素點。拿著這張布滿噪點的圖像,再次散布像素,然后重復這一過程。重復足夠多次后,最初的圖像就會變成一團隨機的像素混亂,就像老式電視機上的雪花噪點。

      擴散模型是一種神經網絡,經過訓練可以逆轉這一過程,將隨機的噪點轉化為圖像。在訓練過程中,它會看到處于不同像素化階段的數百萬張圖像。它學習這些圖像在每次添加新像素時的變化規律,從而學習如何撤銷這些變化。

      結果就是,當你要求擴散模型生成圖像時,它會從一團隨機的像素混亂開始,一步步將這一混亂轉化為與其訓練集中的圖像大致相似的圖像。

      但你不想要隨便一張圖像——你想要你指定的圖像,通常通過文本提示詞來描述。因此,擴散模型會與第二個模型配對。這個輔助模型通常是一個經過訓練、能將圖像與文本描述匹配的大語言模型(LLM)。它指導清理過程的每一步,推動擴散模型生成大語言模型認為與提示詞匹配度高的圖像。

      另外,這個大語言模型并不是憑空建立文本與圖像之間的聯系。如今大多數文本生成圖像和文本生成視頻的模型,都是在包含數十億對文本與圖像或文本與視頻的大型數據集上訓練的。這些數據是從互聯網上抓取的(這種做法讓許多創作者非常不滿)。這意味著你從這些模型中得到的內容,是網絡世界表現形式的濃縮,其中也包含了偏見(以及色情內容)帶來的扭曲。

      我們要理解擴散模型如何處理圖像很容易。但這該技術也可以用于多種類型的數據,包括音頻和視頻。為了生成電影片段,擴散模型必須清理一系列圖像,而不僅僅是一張圖像——即視頻的連續幀。



      什么是潛在擴散模型?

      所有這些都需要巨大的算力(也就是能源)。這就是為什么大多數用于視頻生成的擴散模型使用一種稱為“潛在擴散”(latent diffusion)的技術。模型不處理每個視頻幀中數百萬像素的原始數據,而是在所謂的“潛在空間”中工作。在這個空間里,視頻幀(和文本提示詞)被壓縮成數學代碼。這些代碼只捕捉數據的基本特征,并丟棄其余部分。

      類似的原理發生在你通過互聯網流式傳輸視頻時:視頻以壓縮格式從服務器發送到你的屏幕,以便更快傳輸。到達后,你的電腦或電視會將其轉換回可觀看的視頻。

      因此,最后一步是對潛在擴散過程產生的結果進行解壓。一旦隨機噪點的壓縮幀被轉化為壓縮后的視頻幀(且大語言模型向導認為這與用戶的提示詞匹配良好),壓縮視頻就會被轉換成你可以觀看的內容。

      通過使用潛在擴散技術,擴散過程的工作方式與處理圖像時大致相同。區別在于,像素化的視頻幀現在是這些幀的數學編碼,而不是幀本身。這使得潛在擴散比典型的擴散模型效率高得多。(即便如此,視頻生成消耗的能源仍然比圖像或文本生成多。涉及的計算量依然驚人。)



      什么是潛在擴散 Transformer?

      還有一個謎題尚未解開,那就是如何確保擴散過程產生一系列連貫的幀,保持物體和光線等元素在幀與幀之間的一致性。OpenAI 在開發 Sora 時,通過將其擴散模型與另一種稱為 Transformer 的模型相結合,解決了這個問題。這已成為生成式視頻的標準做法。

      Transformer 擅長處理長序列數據,比如文字。這使它們成為 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大語言模型內部的關鍵技術。這些模型可以生成意義通順的長文本序列,并在數十個句子中保持一致性。

      但視頻不是由文字組成的。相反,視頻被切割成塊,以便像處理文字一樣處理它們。OpenAI 提出的方法是在空間和時間兩個維度上對視頻進行切割。Sora 的首席研究員蒂姆·布魯克斯(Tim Brooks)說:“這就像你有一摞所有的視頻幀,然后從中切出小立方體。”

      將擴散模型與 Transformer 結合帶來了一些優勢。由于 Transformer 專為處理序列數據而設計,它們有助于擴散模型在生成過程中保持幀與幀之間的一致性。這使得生成的視頻中,物體不會莫名其妙地出現或消失。

      此外,由于視頻被切成了塊,其尺寸和方向就不再重要。這意味著最新一波視頻生成模型可以在廣泛的示例視頻上進行訓練,從手機拍攝的短豎屏視頻到寬銀幕電影。訓練數據的多樣性使得視頻生成技術遠勝于兩年前。這也意味著視頻生成模型現在可以按要求生成各種格式的視頻。



      音頻如何生成?

      Veo 3 的一大進步是它可以生成帶有音頻的視頻,從口型同步的對話到音效和背景噪音。這是視頻生成模型的首創。Google DeepMind 首席執行官德米斯·哈薩比斯(Demis Hassabis)在今年的 Google I/O 大會上說:“我們正在走出視頻生成的無聲時代。”

      這一技術的挑戰在于找到一種方法來對齊視頻和音頻數據,以便擴散過程能同時處理兩者。Google DeepMind 的突破在于一種新方法,它將音頻和視頻壓縮成擴散模型內部的一塊單一數據。當 Veo 3 生成視頻時,其擴散模型通過同步過程同時產生音頻和視頻,確保聲音和圖像是對齊的。



      大語言模型也是這樣工作的嗎?

      至少目前還不是。擴散模型最常用于生成圖像、視頻和音頻。用于生成文本(包括計算機代碼)的大語言模型是使用 Transformer 構建的,但其界限正在變得模糊。我們已經看到 Transformer 正在與擴散模型結合以生成視頻。今年夏天,Google DeepMind 透露,通過使用擴散模型而非 Transformer 來生成文本,他們正在構建一個實驗性的大語言模型。

      這里情況開始變得令人困惑:雖然視頻生成(使用擴散模型)消耗大量能源,但擴散模型本身實際上比 Transformer 更高效。因此,通過使用擴散模型代替 Transformer 來生成文本,Google DeepMind 的新大語言模型可能比現有模型效率高得多。在不久的將來,預計我們會看到更多基于擴散模型的成果。


      https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江浙滬地區有多富裕?看湖南與浙江鄉村湖南對比!

      江浙滬地區有多富裕?看湖南與浙江鄉村湖南對比!

      謠談鄉村振興
      2026-01-11 21:54:00
      影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

      影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

      徐幫陽
      2025-12-23 18:33:38
      美專家罕見達成一致:一旦臺灣回歸中國,美國可能就剩1條路可走

      美專家罕見達成一致:一旦臺灣回歸中國,美國可能就剩1條路可走

      文史旺旺旺
      2026-01-11 17:12:09
      特朗普再度威脅古巴 委內瑞拉公告委古“兄弟情”

      特朗普再度威脅古巴 委內瑞拉公告委古“兄弟情”

      新華社
      2026-01-12 16:09:20
      印度要求智能手機制造商共享“源代碼”,蘋果和三星等表示擔憂!

      印度要求智能手機制造商共享“源代碼”,蘋果和三星等表示擔憂!

      AI商業論
      2026-01-11 19:27:35
      百年龐家故事大揭秘:他們為何不選擇離開大陸?

      百年龐家故事大揭秘:他們為何不選擇離開大陸?

      金牌輿情官
      2025-12-25 20:15:34
      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      釋凡電影
      2025-08-14 09:33:19
      “死了么”APP創始人:開發成本1000多元,團隊系三個95后,計劃出售10%股份,估值已達到1000萬元人民幣

      “死了么”APP創始人:開發成本1000多元,團隊系三個95后,計劃出售10%股份,估值已達到1000萬元人民幣

      大風新聞
      2026-01-11 11:03:04
      86歲劉詩昆:女兒5歲兒子2歲,太太說20年前就看上他的優質基因

      86歲劉詩昆:女兒5歲兒子2歲,太太說20年前就看上他的優質基因

      豐譚筆錄
      2026-01-03 07:50:06
      衛冕冠軍為何被山東爆冷?廣東媒體人給出答案,否認輸給張子宇

      衛冕冠軍為何被山東爆冷?廣東媒體人給出答案,否認輸給張子宇

      萌蘭聊個球
      2026-01-12 21:54:16
      上汽集團總裁賈健旭拜訪華為創始人任正非,共商尚界品牌合作再深化

      上汽集團總裁賈健旭拜訪華為創始人任正非,共商尚界品牌合作再深化

      財聞
      2026-01-12 18:51:10
      突發!香港知名男星宣布和妻子離婚,婚后不出門工作在家吃軟飯

      突發!香港知名男星宣布和妻子離婚,婚后不出門工作在家吃軟飯

      林雁飛
      2026-01-12 13:41:53
      狐貍尾巴終究藏不住,他“妻妾成群”,大兒子和鞏俐越長越像?

      狐貍尾巴終究藏不住,他“妻妾成群”,大兒子和鞏俐越長越像?

      豐譚筆錄
      2026-01-03 07:50:06
      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      人財兩空!廣東寶媽梁海燕去世,因羊水栓塞導致,十天花費超50萬

      人財兩空!廣東寶媽梁海燕去世,因羊水栓塞導致,十天花費超50萬

      鋭娛之樂
      2026-01-12 08:32:40
      毛主席為啥要讓知識青年上山下鄉?直到如今,才懂偉人的深意

      毛主席為啥要讓知識青年上山下鄉?直到如今,才懂偉人的深意

      沈言論
      2025-11-27 17:05:03
      AI應用爆了,002131,超300萬手封漲停!谷歌出手,AI購物迎來重磅利好,機構扎堆盯上7只概念股

      AI應用爆了,002131,超300萬手封漲停!谷歌出手,AI購物迎來重磅利好,機構扎堆盯上7只概念股

      數據寶
      2026-01-12 12:36:09
      廣東單親媽媽嫁大27歲澳洲老頭,6年后被鹽酸溶解,只剩10顆烤瓷牙

      廣東單親媽媽嫁大27歲澳洲老頭,6年后被鹽酸溶解,只剩10顆烤瓷牙

      阿傖說事
      2025-11-30 02:10:39
      1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

      1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

      春秋硯
      2025-12-20 08:55:09
      45歲男星曬上海新家!4萬電視柜,15萬沙發,沒戲拍日子照樣舒坦

      45歲男星曬上海新家!4萬電視柜,15萬沙發,沒戲拍日子照樣舒坦

      瓜汁橘長Dr
      2026-01-09 17:44:33
      2026-01-12 23:32:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16114文章數 514478關注度
      往期回顧 全部

      科技要聞

      面對SpaceX瘋狂“下餃子” 中國正面接招

      頭條要聞

      官方確認殲10CE首次取得實戰戰果:零損失擊落多架戰機

      頭條要聞

      官方確認殲10CE首次取得實戰戰果:零損失擊落多架戰機

      體育要聞

      聰明的球員,不是教練教出來的

      娛樂要聞

      蔡少芬結婚18周年,與張晉過二人世界

      財經要聞

      倍輕松信披迷霧 實控人占用資金金額存疑

      汽車要聞

      增配不加價 北京現代 第五代 勝達2026款上市

      態度原創

      時尚
      教育
      旅游
      房產
      手機

      冬季穿衣千萬別花枝招展,這些基礎穿搭,越簡單才越高級耐看

      教育要聞

      頭頂上的爭論 | 新觀察

      旅游要聞

      春節出境游全面超往年!“最長春節”將至,你會選擇怎么過

      房產要聞

      重磅調規!417畝商改住+教育地塊!海口西海岸又要爆發!

      手機要聞

      榮耀Magic8 RSR保時捷設計官宣,下周見

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品1区2区3区在线观看| 又黄又爽又色的视频| 饥渴的熟妇张开腿呻吟视频| 成人片99久久精品国产桃花岛| 欧美不卡一区二区三区| 黄色综合网| 亚洲无线观看国产精品| 成人AV一区二区三区| 国产精品亚洲mnbav网站| 亚洲av永久无码精品秋霞电影影院| 国产免费人成网站在线播放| 夜夜躁很很躁日日躁麻豆| 武鸣县| 狠狠五月深爱婷婷网| 久久做受www| 天天色欲网| 亚洲精品日韩中文字幕| 亚洲偷偷自拍码高清视频| 男女真人国产牲交a做片野外| 久久久国产精品无码一区二区| 成人做爰视频www网站小优视频| 国产精品热久久无码av| 7m精品福利视频导航| 草草地址线路①屁屁影院成人| 午夜诱惑| 国模在线| 三上悠亚ssⅰn939无码播放| 日韩精品亚洲精品第一页| 国产av国片精品一区二区| 91国产精品| 欧美成人激情黄色网| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产精品va欧美精品| 88国产精品视频一区二区三区| 人人干干| 久久久www免费人成精品| 久草网址| 狠狠色丁香婷婷综合尤物| 曰批免费40分钟免费观看软件| 久久国产精品萌白酱免费| 极品熟女精品|