還記得第一次用AI生成視頻的體驗(yàn)嗎?
輸入一段話,滿心期待地點(diǎn)擊生成,然后......就是漫長的等待。
屏幕上一個進(jìn)度圈轉(zhuǎn)啊轉(zhuǎn),結(jié)果就像開盲盒。
可能是驚喜,也可能是驚嚇。
幾分鐘后,視頻出爐,運(yùn)氣好,收獲的是驚喜。
但更多時候,可能是人物扭曲、畫面跳躍。
![]()
想改?對不起,請推倒重來。
這種“盲盒”式的體驗(yàn),曾經(jīng)是AI視頻的常態(tài)。
如今的AI視頻生成,已經(jīng)變成一場你可以全程掌控的實(shí)時導(dǎo)演秀。
而這場變革,正是百度蒸汽機(jī)帶來的。
![]()
從等待到實(shí)時共創(chuàng)
就在最近,百度蒸汽機(jī)模型完成了一次重磅升級。
官方資料顯示,它實(shí)現(xiàn)了行業(yè)首個實(shí)時流式生成能力。
這串技術(shù)名詞聽起來有點(diǎn)唬人,但理解起來很簡單。
![]()
咱們做個生動的對比:
過去的傳統(tǒng)模式, 就像你把劇本(Prompt)扔進(jìn)一個“魔法盒”。
然后盒子緊閉,里面叮叮當(dāng)當(dāng)一陣響。
你啥也看不見,只能干等。
最后盒子“哐當(dāng)”一聲打開,成品好壞都得接受。
現(xiàn)在的百度蒸汽機(jī),更像你坐在導(dǎo)演監(jiān)視器前。
AI是你的全能劇組,鏡頭一開,畫面就實(shí)時呈現(xiàn)在你眼前。
拍到第5秒,你覺得主角表情不對?
立刻喊“卡!”
![]()
現(xiàn)場就能改劇本,讓AI重拍這一條。
這個改變,看似只是交互方式的不同,但是徹底顛覆了人機(jī)協(xié)作的關(guān)系。
創(chuàng)作者從被動的接受者,變成了主動的引導(dǎo)者。
這種“邊看邊生,實(shí)時共創(chuàng)”的體驗(yàn),才是真正讓人機(jī)協(xié)作有了溫度。
![]()
親身體驗(yàn)
光說不練假把式。
根據(jù)百度官方展示的案例,一位記者沉浸式體驗(yàn)了一把“AI導(dǎo)演”的樂趣。
記者找了一張愛因斯坦的經(jīng)典照片。
![]()
然后,輸入了一個有點(diǎn)“惡搞”的指令:
“愛因斯坦在舞臺上說物理學(xué)脫口秀,同時鏡頭跟隨人物變化。”
點(diǎn)擊生成,好戲開場。
旁邊的任務(wù)結(jié)果區(qū),視頻畫面開始一幀一幀地出來。
愛因斯坦的形象逐漸生動,仿佛真的站在了聚光燈下。
親眼見證“創(chuàng)造”發(fā)生的過程,本身就充滿魔力。
生成到第12秒左右,系統(tǒng)自動暫停了。
這是一個小貼士,每12秒會暫停一次,等待用戶指令。
記著看了看,前面的效果不錯,但感覺動作有點(diǎn)單一。
于是,點(diǎn)擊了“續(xù)改”按鈕,把播放頭拖到合適的位置,增加了新的指令:
“讓他一邊說,一邊加入一些手勢比劃。”
繼續(xù)生成!AI完美地理解了記者的新指令。
畫面中的愛因斯坦,不僅口若懸河,還配上了豐富的手部動作。
儼然一位沉浸其中的表演者。
![]()
最終,一段近30秒、生動有趣的“愛因斯坦脫口秀”就誕生了。
如果愿意,還可以選擇有聲版,讓這位科學(xué)巨匠真的“開口說話”。
整個過程,沒有絲毫的焦慮。
因?yàn)槿魏尾粷M意,都不是終點(diǎn),只是一個可以隨時修正的中間站。
這種掌控感,對于創(chuàng)作來說,太珍貴了。
![]()
AI學(xué)會抗干擾和不遺忘
你可能好奇,這么“聽話”的AI是怎么煉成的?
這背后,是充滿了人情的技術(shù)思考。
傳統(tǒng)的AI視頻模型,像是用Transformer架構(gòu)的巨獸。
![]()
生成時間一長,計(jì)算量就爆炸,根本快不起來,更別提實(shí)時交互了。
而百度蒸汽機(jī),換了一條賽道。
它采用了自回歸擴(kuò)散模型。
可以理解為,它像我們寫長篇文章一樣。
一段一段地生成,并且每一段都會回頭看上文,保證劇情連貫。
工程師們?yōu)榱俗屵@個“AI劇組”更靠譜,還對它進(jìn)行了特殊的“抗壓訓(xùn)練”。
他們引入了噪聲重注入和歷史幀擾動增強(qiáng)機(jī)制。
說白了,就是在訓(xùn)練時,故意給AI制造各種“意外狀況”。
比如突然的畫面變化、指令調(diào)整。
就像訓(xùn)練一個優(yōu)秀的演員,能在各種突發(fā)狀況下保持專業(yè),繼續(xù)表演。
![]()
同時,通過錨點(diǎn)幀引導(dǎo)和歷史參考幀技術(shù),AI能牢牢記住故事的主線和角色的樣貌。
不會生成到后面,讓愛因斯坦突然變成了另一個人。
它學(xué)會了“不遺忘”,就像導(dǎo)演對作品整體風(fēng)格的把握。
這些技術(shù)細(xì)節(jié),最終都服務(wù)于一個目標(biāo)。
讓AI變成一個理解你、能與你穩(wěn)定協(xié)作的創(chuàng)作伙伴。
技術(shù)不再是高高在上的壁壘,而是化作了流暢、可靠的體驗(yàn)。
![]()
人人都是導(dǎo)演,未來會怎樣?
當(dāng)實(shí)時交互的長視頻技術(shù)走向成熟,我們的生活會因它而改變嗎?
對于普通人的我們,未來給孩子講睡前故事,可以做成一段動畫片。
記錄旅行vlog,可以讓AI幫你補(bǔ)拍心中想象的完美鏡頭。
創(chuàng)作,成為一種表達(dá)自我的日常,不再是少數(shù)人的專業(yè)技能。
![]()
廣告營銷可以快速生成海量個性化視頻。
教育領(lǐng)域可以誕生出互動性極強(qiáng)的視頻課程。
這是效率的提升,更是創(chuàng)作維度的拓展。
百度蒸汽機(jī)從5月登頂全球榜單,到7月實(shí)現(xiàn)音視頻一體。
再到9月突破時長限制,10月實(shí)現(xiàn)實(shí)時交互。
AI從一個笨拙的工具,成長為一個充滿潛力的創(chuàng)意伙伴。
說到底,我們?yōu)槭裁礊榧夹g(shù)的每一次進(jìn)步而歡呼?
![]()
是因?yàn)椋诔蔀槠胀ㄈ伺c創(chuàng)意表達(dá)之間的橋梁和工具。
百度蒸汽機(jī)象征著AI發(fā)展的焦點(diǎn)。
正從“機(jī)器能做什么”轉(zhuǎn)向“人能與機(jī)器一起創(chuàng)造什么”。
它不旨在創(chuàng)造無所不能的神,而是打磨一件件得心應(yīng)手的器。
賦予每個普通人更大的力量,描繪他們腦海中的斑斕世界。
我們每一個人,也能親自上場,執(zhí)導(dǎo)自己心中的美好。
素材來源
1.《量子位》:Sora2不夠香了!這款國產(chǎn)AI視頻模型已經(jīng)能邊看邊生成,生成快還互動佳
2.《中國經(jīng)營報(bào)》:百度蒸汽機(jī)推出可實(shí)時交互長視頻功能,支持打斷、改寫、續(xù)寫
3.《虎嗅》:百度:蒸汽機(jī)模型實(shí)現(xiàn)AI長視頻實(shí)時交互
本文作者 | 檸檬雪
責(zé)任編輯 | 淡淡翠
策劃 | 淡淡翠
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.