<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      讓 AI 視頻學會配音,學術界花了十年|Vidu Q3 發(fā)布的背后

      0
      分享至

      先看這個,一起背背單詞,Ambition,俺必勝

      俺必勝 = Ambition

      prompt

      趣味單詞助記視頻,中國古代戰(zhàn)爭大片風格(類似《三國演義》),千軍萬馬的戰(zhàn)場,陰沉的天空,戰(zhàn)旗飄揚

      一位身穿重甲、滿臉胡渣的將軍緩緩拔出寶劍,舉劍指天,眼神狂熱,嘶吼:「俺!必!勝!!」

      天空一道閃電劈下,畫面驟暗。黑幕中金色火焰字體燃燒而出:AMBITION,下方浮現(xiàn)中文「雄心」。渾厚男聲旁白同步朗讀:「Ambition,雄心」

      Vidu 剛剛發(fā)布了 Q3,支持上了聲畫同出、文字渲染、自動切鏡

      官網(wǎng)在這:https://www.vidu.cn/

      開發(fā)者平臺在這:https://platform.vidu.cn/


      而諧音記單詞,也是把 Vidu Q3 的能力全用上了,再來一個

      拍死它 = Pest

      prompt

      趣味單詞助記視頻,4K高清美食紀錄片風格,極度清晰的微距鏡頭,明亮的米其林餐廳后廚 ,古典音樂舒緩

      蒼蠅嗡嗡聲漸近,音樂戛然而止,蒼蠅飛入畫面降落在食物最頂端,大廚舉起巴掌,用中文大吼:「拍死它!」 手掌即將拍下瞬間,畫面定格震動

      紅色印章風格猛然蓋上:PEST,下方顯示中文「害蟲」

      清脆女聲同步朗讀:「Pest,害蟲」

      Vidu Q3 是生數(shù)科技 1 月 30 日發(fā)布的視頻生成模型,全球首個支持 16 秒音視頻直出

      在 Artificial Analysis 最新榜單中,Vidu Q3 排名中國第一,全球第二,超過 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2


      AA text to video 榜單:2月3日截圖 拍短劇視角

      以前用 AI 做短劇的流程是這樣的:生成畫面,配音,配音效,剪輯

      Q3 把這幾步合成一步:一次生成出視頻 + 對話 + 音效 + 背景音樂,口型自動對上

      讓我們先來看看這個搞砸了的廚師

      搞砸了的廚師

      prompt


      Static camera from inside the oven, looking outward through the slightly fogged glass door. Warm golden light glows around freshly baked cookies. The baker’s face fills the frame, eyes wide with focus, his breath fogging the glass as he leans in. Subtle reflections move across the glass as steam rises.
      Baker (whispering dramatically): “Today… I achieve perfection.”
      He leans even closer, nose nearly touching the glass.
      “Golden edges. Soft center...”
      Baker: “Wait—”
      (beat)
      “Did I… forget the chocolate chips?”
      Cut to side view — coworker pops into frame, chewing casually.
      Coworker (mouth full): “Nope. You forgot the sugar.”
      Quick zoom back to the baker’s horrified face, pressed against the oven door, as cookies deflate behind the glass. Steam drifts upward in slow motion.
      pixar style acting and timing

      Pixar 風格,烤箱內視角,兩個人一來一回的對話,表情、節(jié)奏、喜劇 timing 全在里面

      一次生成,裝下一個完整的戲劇沖突

      再看這個父子棒球場的案例,4 個鏡頭自動切換

      父子棒球場

      prompt

      Shot 1 (Establishing wide shot, 3s): The baseball field, crowd cheering, scoreboard in the distance.

      Shot 2 (Medium shot, 5s): Father leans closer to his son. Father: "Which team do you think will win today?"

      Shot 3 (Close-up on son, 4s): The son watches the field seriously. Son: "I think the new team they just brought in will surprise everyone."

      Shot 4 (Cut back to two-shot, 3s): The father smiles and nods.

      全景、中景、特寫、雙人鏡頭,一段提示詞搞定

      圖生音視頻

      不只文生視頻,圖生也能聲畫同出

      上傳一張圖,寫上提示詞,完整視頻就有了,嘴型對得上,語氣也對,還有運鏡

      比如,讓我們先看看下面的這個

      所給到的參考圖,就是下面這個


      臺詞、動作、特效、運鏡、配樂,一次出完

      說到配樂...沒錯,Vidu 是支持讓人物唱出來的,比如下面這個,把非洲老哥的照片丟進去,讓他 Rap....


      就真特么成了

      還可以玩點更花里胡哨的,比如:多張分鏡圖輸入,一段完整視頻輸出,就像下面這個一樣


      下面這個就是成品

      分鏡變視頻

      prompt


      節(jié)奏:由慢到快;
      1. [極特寫] 黑色背景中,大塊可可豆被金屬磨盤碾碎,粉塵飛舞。
      2. [慢動作特寫] 濃稠的黑巧克力漿像絲綢一樣倒入攪拌碗。
      3. [特寫] 攪拌器高速旋轉,帶起巧克力漩渦。
      4. [中景加速] 蛋糕在烤箱中快速膨脹(Time-lapse 延時攝影感)。
      5. [特寫] 剛出爐的蛋糕表面撒上一層細密的糖粉。
      6. [極特寫] 銀色勺子挖開蛋糕,內部熱氣騰騰的巧克力巖漿流出,填滿畫面。```

      我覺得,最牛逼的還是這個,Q3 還支持中、英、日三語對話。同一段內容,換個語言標簽就能出不同語種版本

      然后...人物的神態(tài),真的就分別像中國人、美國人、日本人

      特么的絕了...要知道,說不同語言的時候,面部肌肉到動作是不一樣的,這里竟然能仿到很真

      吃或不吃,三語版

      prompt

      中文:少女保持姿勢不變,略帶疑惑地對著鏡頭說:吃,或者不吃。這是個很嚴肅的問題

      英文:The girl remained in the same position, looking slightly puzzled at the camera, and said: "Eat, or not eat. This is a very serious question."

      日文:少女は同じ姿勢のまま、少し困惑した様子でカメラを見つめ、「食べるか、食べないか。これは非常に深刻な問題です」と言った
      文字渲染

      Q3 可以在視頻中生成精準的中、英、日文字,不會變形

      prompt


      水下第一視角,魚眼鏡頭,陽光從水面斜斜射下,一道道光柱在幽藍水體中漂浮。五彩斑斕的魚群從四周聚攏,在正前方排成一排,銀光閃爍地拼出漂浮的字母:“DEEP BLUE”。字母輕輕晃動,仿佛懸在水中發(fā)光。下方的珊瑚泛著熒光,沙地上焦散光影在流動中扭曲。

      還記得開頭的「諧音記單詞」么?這是相同的原因:畫面里的 AMBITION 和 PEST 都是模型直接渲染出來的

      聲畫同出

      視頻生成模型能配音這件事,學術界研究了快十年


      2016 年 MIT 做了個實驗:給模型看敲擊不同材質物體的視頻,讓它預測敲擊聲音。這是視覺引導音頻生成的起點

      2017 年牛津 VGG 團隊提出了一個任務:給一段視頻和一段音頻,判斷它們是不是來自同一來源。聽起來簡單,但這個自監(jiān)督目標成了后續(xù)大量研究的基礎

      2020 年,擴散模型開始崛起。DDPM 提出通過逐步去噪從隨機噪聲生成高質量圖像,這個框架很快被擴展到音頻領域


      2022 年 12 月,MM-Diffusion 論文發(fā)布,學術界第一個聯(lián)合音視頻擴散框架。核心思路是讓音頻和視頻分支共享去噪過程,同時保持各自的特征提取。這篇論文證明了一件事:音視頻可以在同一個擴散過程中同時生成,效果比先生成視頻再配音頻的級聯(lián)方法更好

      但學術模型有個問題:只能生成 4 秒、256×256 分辨率的短視頻。商業(yè)產(chǎn)品追求高分辨率和長時長,音頻生成暫時擱置

      2025 年 5 月,Google Veo 3 發(fā)布,首個商用原生音視頻模型。Google 把數(shù)百萬小時的配對音視頻數(shù)據(jù)和擴散 Transformer 架構結合,學術和工業(yè)之間的鴻溝被跨越

      然后各家快速跟進:

      時間

      模型

      時長

      Google Veo 3

      8 秒

      Gaga-1

      10 秒

      OpenAI Sora 2

      15 秒

      快手 Kling 2.6

      10 秒

      字節(jié) Seedance 1.5 Pro

      12 秒

      Runway Gen-4.5

      10 秒

      生數(shù) Vidu Q3

      16 秒

      補充說明 OpenAI 在啟用 StoryBoard 的時候,視頻可以最長 25 秒,不過那屬于工程優(yōu)化,暫時不算在這個列表里

      9 個月,原生音頻從突破性創(chuàng)新變成競爭標配。Q3 的 16 秒是目前最長的單次生成時長

      技術路線上有兩種:聯(lián)合生成,或者級聯(lián)生成

      聯(lián)合生成:跑一次,音頻視頻同時出來,二者共享潛空間,完美時間對齊,但計算成本高

      級聯(lián)生成:跑兩次,先出視頻,再出音頻,可以用單模態(tài)最好的模型,但可能產(chǎn)生微妙的不對齊


      現(xiàn)在的競爭焦點是:單次生成時長、對話質量、多語言支持、唇形同步準確度、多人場景處理能力

      最后

      收束下全文,這次 Vidu 發(fā)布了 Q3,支持文生視頻、圖生視頻,最長 16 秒,聲畫同出,為劇而生


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國男籃決戰(zhàn)日本隊,最強首發(fā)五人曝光,郭士強認真了

      中國男籃決戰(zhàn)日本隊,最強首發(fā)五人曝光,郭士強認真了

      宗介說體育
      2026-02-26 09:48:05
      北京今天傍晚起有雨雪,早點回家!下周冷空氣頻繁

      北京今天傍晚起有雨雪,早點回家!下周冷空氣頻繁

      環(huán)球網(wǎng)資訊
      2026-02-26 15:05:12
      國乒新消息:亞洲杯爭議球風向變了,曼昱粉絲認為莎莎不尊重裁判

      國乒新消息:亞洲杯爭議球風向變了,曼昱粉絲認為莎莎不尊重裁判

      體壇亦說
      2026-02-26 16:03:11
      春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

      春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

      夜深愛雜談
      2026-02-24 22:41:54
      32歲孫怡因蝸居80㎡小屋走紅,拒絕豪宅只求舒心

      32歲孫怡因蝸居80㎡小屋走紅,拒絕豪宅只求舒心

      好運常伴吾身
      2026-02-26 12:57:37
      德國總理默茨:令人驚嘆

      德國總理默茨:令人驚嘆

      財聞
      2026-02-26 14:36:55
      養(yǎng)一臺奧迪A6L有多費錢?中年車主含淚吐槽:面子有了,卻養(yǎng)不起

      養(yǎng)一臺奧迪A6L有多費錢?中年車主含淚吐槽:面子有了,卻養(yǎng)不起

      搗蛋窩
      2026-02-17 18:54:35
      威少KD發(fā)生爭執(zhí)!申京砍26+13+11,謝潑德28分,火箭31分大勝國王

      威少KD發(fā)生爭執(zhí)!申京砍26+13+11,謝潑德28分,火箭31分大勝國王

      你的籃球頻道
      2026-02-26 11:19:17
      迷失無人區(qū):女子帶藏獒無人區(qū)失聯(lián)兩周,警方找到車,車內只剩藏獒

      迷失無人區(qū):女子帶藏獒無人區(qū)失聯(lián)兩周,警方找到車,車內只剩藏獒

      罪案洞察者
      2025-11-10 13:57:07
      比爾·蓋茨承認曾出軌2名俄羅斯女性:一人為橋牌選手,一人為核物理學家

      比爾·蓋茨承認曾出軌2名俄羅斯女性:一人為橋牌選手,一人為核物理學家

      紅星新聞
      2026-02-26 15:38:52
      竟然有這么多人生回報率高的小習慣!網(wǎng)友: 簡單的事情要重復做

      竟然有這么多人生回報率高的小習慣!網(wǎng)友: 簡單的事情要重復做

      夜深愛雜談
      2026-02-19 22:50:03
      恭喜!國乒19歲小將立大功,張本美和再次崩盤,孫穎莎仍戰(zhàn)無不勝

      恭喜!國乒19歲小將立大功,張本美和再次崩盤,孫穎莎仍戰(zhàn)無不勝

      以茶帶書
      2026-02-25 19:38:12
      演員陳麗君殺瘋了:臺北5場演出售票秒空,越劇演員憑借實力爆紅

      演員陳麗君殺瘋了:臺北5場演出售票秒空,越劇演員憑借實力爆紅

      影像溫度
      2026-02-25 14:17:14
      海歸光環(huán)徹底消失?49.5萬留學生涌回國,殘酷真相:企業(yè)只認這個

      海歸光環(huán)徹底消失?49.5萬留學生涌回國,殘酷真相:企業(yè)只認這個

      南權先生
      2025-12-23 16:16:33
      中金:積極布局“兩會”行情 重點關注順周期、科技成長等領域

      中金:積極布局“兩會”行情 重點關注順周期、科技成長等領域

      新浪財經(jīng)
      2026-02-26 07:56:47
      重要賽事!2月26日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

      重要賽事!2月26日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

      皮皮觀天下
      2026-02-26 12:47:33
      美債清零?游戲結束,中方不救美元了,特朗普決策錯誤,急求和談

      美債清零?游戲結束,中方不救美元了,特朗普決策錯誤,急求和談

      財經(jīng)保探長
      2026-02-25 16:46:08
      新娘父親婚禮上退還男方18.8萬元彩禮,新娘:丈夫當時很震驚,彩禮在償還借款、扣除婚禮開銷后,已所剩無幾

      新娘父親婚禮上退還男方18.8萬元彩禮,新娘:丈夫當時很震驚,彩禮在償還借款、扣除婚禮開銷后,已所剩無幾

      觀威海
      2026-02-25 14:14:38
      彌留之際的孫中山,在眾人面前留下遺言,同時指著宋慶齡,鄭重交代了十個字

      彌留之際的孫中山,在眾人面前留下遺言,同時指著宋慶齡,鄭重交代了十個字

      老杉說歷史
      2025-12-31 18:38:13
      明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

      明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

      談史論天地
      2026-02-26 06:46:17
      2026-02-26 16:43:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數(shù) 44關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      女子家水費兩個月1847元 整整一個月每天用水都是13噸

      頭條要聞

      女子家水費兩個月1847元 整整一個月每天用水都是13噸

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經(jīng)要聞

      人民幣升破6.85,創(chuàng)3年新高

      汽車要聞

      別克君越/昂科威Plus直降5000元 限時優(yōu)惠價15.49萬起

      態(tài)度原創(chuàng)

      數(shù)碼
      旅游
      家居
      本地
      公開課

      數(shù)碼要聞

      PC怎能不漲價!惠普:內存已占電腦成本1/3以上

      旅游要聞

      冬日暖陽下的約克:一座中世紀小城的奇幻漫步

      家居要聞

      歸隱于都市 慢享自由

      本地新聞

      津南好·四時總相宜

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版