![]()
「像做恨一樣做ai視頻」
最近Seedance 2.0接入大賽開始了,有頭有臉的視頻agent都當(dāng)上字節(jié)中介原地起飛了。
OiiOii也不求Sora2 API了,Libtv狂投一波慶祝自己接入Seedance2.0了,連低調(diào)Flova都忍不住出來炒作,暗示剪映技術(shù)負(fù)責(zé)人王學(xué)智和產(chǎn)品負(fù)責(zé)人張逍然已經(jīng)去Flova了。
早知今日何必離開字節(jié)呢?我建議即夢直接按照鬧鬧、陳冕、郭列在字節(jié)的級別給他們分一下額度。
我也又回去用了下之前盛贊過的Flova,畢竟之前說它懷了個(gè)剪映寶寶雛形,現(xiàn)在得檢查一下是否破肚而出了。
結(jié)果他們很幽默,非得聲稱自己接入了一個(gè)能全能參考、能動(dòng)作模仿、能時(shí)長翻倍的怎么看著都是Seedance 2.0的視頻模型,但不知道是保密需求還是怎么的,硬是給它起名叫StarDawn 2.0。給我看一愣一愣,以為這公司掌握核心蒸餾技術(shù)了。
![]()
最近兩天才使用查找替換功能把名都改成Seedance 2.0了
于是我先試著做了一個(gè)喜鵲謀殺案片頭式的朝鮮宣傳片,準(zhǔn)備在我們本月朝鮮之旅的時(shí)候獻(xiàn)給將軍。
集成了Seedance 2.0參考功能的Flova確實(shí)是把「不用寫提示詞」這一核心賣點(diǎn)給發(fā)揚(yáng)光大了,我只需要把刷到的視頻和一句話靈感發(fā)給它,就開始自動(dòng)分析風(fēng)格了。
![]()
而且在具體的影片策劃上,之前還需要打字,現(xiàn)在直接給了幾輪二選一,實(shí)現(xiàn)像打旮旯game一樣做ai。
![]()
![]()
出現(xiàn)哪些地標(biāo)、兩個(gè)鏡頭之間如何絲滑轉(zhuǎn)場,也基本都是它獨(dú)立思考出來的。我只做一些微小的工作。
最后生成視頻如下,雖然不知道末尾的朝鮮話是啥意思,但感覺挺對味的。
動(dòng)畫的試完了,試試真人效果。我結(jié)合最近鋪天蓋地的把同事壓縮成skills的熱點(diǎn),做了一個(gè)不到十秒的恐怖小短片。
蒽其實(shí)不算特別恐怖,但基本也能看明白核心劇情和預(yù)設(shè)的恐怖點(diǎn)在哪。也算是個(gè)成品。
但當(dāng)我讓Flova做一個(gè)30秒的中長視頻的時(shí)候,就有點(diǎn)翻車了。
我設(shè)想的劇情比較簡單:全程第一人稱視角,主角給同事拍離職vlog,跟著同事走出公司大門之后發(fā)現(xiàn),這人直接被扔到一個(gè)蒸餾工廠里被邪惡的資本家給回收成skills二次利用了。有點(diǎn)像《約定的夢幻島》的劇情。
但用Flova做的時(shí)候,就發(fā)現(xiàn)它有三個(gè)嚴(yán)重的問題。
第一,空間位置關(guān)系只為單個(gè)鏡頭服務(wù),沒有一個(gè)整體的規(guī)劃。
比如主角把頭伸地板里看,下一秒看到的居然是個(gè)天花板,成顛倒世界了。
也可以理解,畢竟在Flova的工作流里,它只是給故事所需的場景生成了幾張孤立的平面圖,又不是做了個(gè)賽博片場的3D建模。
第二,在生成視頻的時(shí)候,沒能把劇情基礎(chǔ)設(shè)定作為畫面提示詞的一部分進(jìn)行考慮。
比如我說這主角偷偷摸摸進(jìn)到工廠里拿手機(jī)偷拍,結(jié)果很多鏡頭要么是第三人稱央視紀(jì)錄片視角,要么懟著人形機(jī)器人的臉拍。給人一種主角蒞臨工廠親自視察的意思。
第三,多個(gè)鏡頭組之間常常硬連尬連,最終成片有素材堆積感。
比如我跟Flova說,視頻里要有同事被抓獲、同事被壓縮成SKILL、同事.skill被安裝到公司電腦這三件事。
它就確實(shí)把事件A、事件B、事件C的鏡頭都給我生成得明明白白的。
但從主角看到事件A到看到事件B之間的過渡,轉(zhuǎn)個(gè)頭或者走個(gè)路,或者對著屏幕說「讓我們?nèi)ツ沁吙纯础梗@就都不存在。都得自己手動(dòng)添加。
好在這三個(gè)問題在短平快的片子制作流程中體現(xiàn)并不明顯,所以我在做朝鮮宣傳片和驚悚小視頻的時(shí)候也沒怎么難受。
估計(jì)Flova也意識到這些問題了,因?yàn)樗麄冏罱e辦的活動(dòng)基本上就是鼓勵(lì)大家多做一句話生成的短視頻。
![]()
Flova的反面就是TapNow。
首先,在Flova邀請用戶做只有3個(gè)鏡頭的視頻發(fā)網(wǎng)上的同時(shí),TapNow辦了一場需要連續(xù)抽卡36個(gè)小時(shí)做視頻的動(dòng)畫黑客松,又發(fā)起了一場連先導(dǎo)片都需要1~3分鐘的AI視頻生成大賽,然后他們網(wǎng)站首頁和對外宣發(fā)的也都是一些電影質(zhì)感的中長視頻創(chuàng)作。
![]()
其次,F(xiàn)lova的交互基本全靠對話,TapNow的界面就是畫布,像是打開了100個(gè)文件夾。
![]()
這甚至只是一個(gè)模 板
我說實(shí)話這畫布看起來比AE界面都復(fù)雜,誰能研究明白這界面,做視頻也不用AI了。
基于以上兩點(diǎn),TapNow生成的確實(shí)都是精準(zhǔn)的、有質(zhì)感的高水平視頻,F(xiàn)lova生成的則是混沌的、差點(diǎn)意思的視頻。
在現(xiàn)階段的AI視頻生成領(lǐng)域,可以說TapNow是一個(gè)專業(yè)的精密儀器,F(xiàn)lova更像是個(gè)玩具。
之前和沐秋聊到視頻agent,他也說現(xiàn)在畫布就是版本答案。這可能也是行業(yè)共識。
但即便如此我也是非常恨畫布,且盡量不使用TapNow。
因?yàn)槿魏我曨lagent的本質(zhì)都是畫布,AI視頻生成都是文生圖——圖生視頻這么幾步,它們后臺(tái)肯定有個(gè)超大畫布在那默默運(yùn)作。唯一構(gòu)成產(chǎn)品區(qū)別的就是你把這個(gè)畫布藏多少,幫用戶畫多少。
TapNow呢?畫布就是它的本質(zhì)了。這不算什么偉大發(fā)明啊。
換句話說,如果有足夠的耐心、時(shí)間和精力,只要你在電腦里建立100個(gè)套來套去的文件夾,再打開Gemini和即夢,你基本上也手搓了一塊畫布。
TapNow做的其實(shí)就是這塊畫布的交互界面,就我個(gè)人而言,沒感覺它設(shè)計(jì)得有多用心。
看這畫布復(fù)雜程度,打開電腦都要死機(jī)了,我也直接看力竭了,根本不想接著做。
![]()
合著我得是個(gè)當(dāng)代電影大師才能來當(dāng)AI視頻大師。
那我能說什么?我不是什么當(dāng)代電影大師啊,我是連畫布都看不懂的**啊。
不會(huì)以為在AI技術(shù)出現(xiàn)之前,阻礙我拍一部電影的只是預(yù)算吧?顯然除此之外,還有我貧瘠的美學(xué)知識和視頻拍攝技術(shù)啊。
你不能只是把攝影機(jī)和一整套燈具換成一臺(tái)能登錄TapNow官網(wǎng)的電腦,把分鏡表改成畫布模樣,然后把電池和膠卷定為token的翻譯,就說現(xiàn)在已經(jīng)沒有任何實(shí)現(xiàn)創(chuàng)意可視化的阻礙了。
往大了說這甚至是一種傲慢。默認(rèn)消費(fèi)者應(yīng)該努力適應(yīng)產(chǎn)品而不是反過來,就算產(chǎn)品再好也會(huì)被淘汰。
上世紀(jì)八九十年代日本傻瓜相機(jī)因?yàn)楹唵魏糜孟砣颍酝吒叨搜b高雅的徠卡差點(diǎn)都被干破產(chǎn)了,只能聯(lián)合美能達(dá)推出了貼牌產(chǎn)品。
請注意這個(gè)時(shí)候他們可沒派一個(gè)公關(guān)高管出來教育用戶說,傻瓜相機(jī)雖好,我們手動(dòng)機(jī)械相機(jī)才是墜能拍出精確曝光的,才是最省膠卷不用抽卡的。
對吧,這話都沒用,這還是徠卡,眾畫布類產(chǎn)品有徠卡的產(chǎn)品力和用戶忠誠度嗎,你們能應(yīng)對日后出現(xiàn)的哪怕沒那么精準(zhǔn)但更易用的傻瓜產(chǎn)品嗎?
對于我們**用戶來說,商品有學(xué)習(xí)成本,那就是路邊一條。
沒有學(xué)習(xí)的義務(wù).jpg
這也是為什么剪映比pr偉大,你pr再能做高級效果再能導(dǎo)入16K240幀的片子也沒用,我一個(gè)特效拉過去,村口老太都發(fā)了10條抖音了。
哦說到抽卡,很多人就提到TapNow這種畫布類產(chǎn)品的一大優(yōu)點(diǎn),省token。
事實(shí)上你在用TapNow的時(shí)候其實(shí)在燒雙倍token。AI燒之前你人腦還燒了一遍呢,研究那個(gè)畫布的時(shí)間都夠你搬磚賺倆月會(huì)員了。
別把自己的精氣神不當(dāng)回事。人的token也是token。
當(dāng)然,噴了TapNow一屏幕,不意味著Flova就更勝一籌了·。
我純個(gè)人視角總結(jié)了一下,現(xiàn)在視頻agent基本就兩個(gè)發(fā)展方向。
一個(gè)是抄TapNow,致力于做出更大更全更無限的超級無敵畫布,然后和其他的畫布比誰接入Seedance 8.0更快。
另一個(gè)是Flova這種,走一個(gè)無知即力量的路線,讓用戶不用管提示詞是怎么寫的,也不用想腳本、模型這些事,把用戶手感作為壁壘。(沐秋還真誠建議Lovart做完TapNow后可以順手再做個(gè)Flova)
然而現(xiàn)在前者的使用體驗(yàn)讓我想死,后者的視頻成片讓我不想活。
所以我決定等待。就像之前學(xué)不明白車現(xiàn)在等來無人駕駛,之前沒蹭上轉(zhuǎn)碼熱潮現(xiàn)在都開始vibe coding。
我現(xiàn)在就要原地不動(dòng)每天噴你們兩家公司,直到TapNow把交互和操作改成對我這種**用戶也友好時(shí),直到Flova能看懂我如夢話般的指令時(shí),我再開始用你們進(jìn)行AI視頻。
畢竟在此之前,用你們做ai就像做恨一樣難受。
(本文封面由ChatGPT 生成,純?nèi)斯懽鳎?/p>
??
歡迎訂閱我們的Substack
funeralai.substack.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.