![]()
作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com
過去兩年,AI視頻工具走過了一條很典型的路。
一開始是“對話式”,你輸入一句話,它吐出一段視頻,簡單直接,但結果不可控;后來有了“節點式”,把創作拆成劇本、分鏡、畫面、視頻一個個節點,可以分段推進、逐幀調整,但對用戶的要求也高了一大截——你不僅要懂創作,還得懂怎么編排工具。
兩條路各有各的解法,也各有各的局限。前者太輕,后者太重。
3月18日,LiblibAI推出了新產品LibTV,一個節點式畫布形態的AI視頻創作平臺。畫布這個形態本身不新鮮,但LibTV往里面裝的東西,讓它變得很不一樣。
![]()
其一是,它往這張畫布里塞進了大量精細化的創作工具——九宮格抽卡、多角度三視圖、打光控制、擴圖、5秒后推演……這些功能指向同一件事:讓創作者在調用模型能力的同時,能更準確、更便捷地把控自己的創作意圖。
看一個用戶創作的案例就能感受到這件事的分量。
這個叫做《青春電幻物語》的短片,日系膠片質感,蒙太奇切得很碎,但碎而不亂——少年少女的面孔、光打進車廂的角度、風吹過麥田的顫動,運鏡和場景、色彩和光影在不停切換中保持著統一的調性。
翻開節點圖,能看到作者把這件事做得有多細……瞬間就明白了為什么這個短片的質感能這么好——每一個鏡頭都是被精心設計過的,不是隨機抽出來的。
![]()
其二是,LibTV能夠接入OpenClaw等Agent,通過平臺自建的Skill,理解任務、調用模型并自動編排工作流。
這意味著這張畫布同時向兩類用戶敞開——懂工作流的專業創作者,和只想開口說一句話的普通用戶。
精細化工具解決的是創作者對結果的掌控感,Agent解決的是創作門檻和效率。把精細到極致的工具和自動化的Agent,同時塞進了一個畫布里,LibTV走了一條很不一樣的路。
1
節點式畫布出現兩年,但模型和產品間的Gap一直在
要理解LibTV在做什么,首先要看看AI視頻創作行業的現狀。
做AI視頻的人,有一個詞說起來都會會心一笑——抽卡。
意思是反復生成,賭一個滿意的結果出來。早期大家抽卡,是因為模型本身不穩定,生成質量忽高忽低;現在模型能力提升了,但抽卡這件事卻沒有消失。
原因很簡單:模型在進步,創作者的要求也在漲。用戶對“理想結果”的定義越來越精確,比如想要一個光影準確、構圖合適、情緒到位的鏡頭,導致提示詞的難度和對模型本身的要求也更高了。
于是,為了解決這個問題,節點式工具陸續出現了。
這一產品形態的邏輯,其實很符合視頻創作本身的結構——視頻不是一張圖,是從一幀到下一幀、彼此之間有關聯的連續敘事。把視頻拆成一個個關鍵節點分別處理,節點之間保持銜接,最后串成一條完整的敘事鏈——這讓視頻創作從“生一段、祈禱它能用”,變成了可以分段推進、分段校驗的流程。
但實際上,過去這兩年,很多畫布都并沒能真正解決精準控制的問題,只是先把問題的顆粒度縮小了。這是因為對單個節點的控制,本質是在填模型和產品之間Gap,不僅難度很大,且一直隨著模型迭代而變化。
更麻煩的是,節點式工具對用戶的要求極高。你需要同時具備兩種能力:對創作意圖的判斷力,以及對工具編排的理解力。前者是創作者本來就有的,后者卻是一套全新的技術語言,和創作本身幾乎沒有關系。
兩種能力缺一不可,這讓節點式工具在推出很久之后,依然是少數專業用戶的領地。
1
LibTV的解法:更細致的工具+更簡易的Agent,讓創作者只做“判斷題”
工具的易用性和創作的高上限,是一種悖論,但卻同時被用戶需要。這次,LibTV用“人+精細化工具”、“Agent+Skill”兩種方式給出了自己的解決方案。
我們分別測了測這兩種方式。
首先,在人+精細化工具這一路徑下,我們先創建了圖片節點,生成了兩個古風人物,然后選擇“角色三視圖”功能,讓后續角色在變化動作和角度時,能夠更加穩定準確。
![]()
接下來,進入具體的場景圖創作,我們設置了河邊、樹下、亭子里三種場景,LibTV支持多個節點同時生成,可以減少等待時間。
![]()
這基礎的兩步做完之后,接著,LibTV的精細化工具就開始上強度了。
針對當前的圖片,工具大體分兩類。一類是在原圖上做精細控制,比如高清、擴圖、重繪、擦除、摳圖等等,其中最值得一提的是打光和多角度。
![]()
打光工具中,你可以選擇智能模式,輸入自然語言讓模型自己理解,也可以手動操作三維坐標球,控制光從哪個角度打來、亮度是多少、顏色是怎樣的,0 Prompt門檻。
![]()
看看實際效果,調完之后,畫面的質感一下就提升了。
![]()
我們再接再厲,嘗試了更多打光風格。后續,可以將不同的打光風格,變成視頻的首尾幀,氣氛的變化不就來了么。
![]()
多角度工具做的也是類似的事,只不過控制的變量變成了機位。
用戶可以手動拖拽角度球,也可以用提示詞,或者拉桿設置角度。左側、俯視、仰視、背面,你選好點位,AI直接出圖。
![]()
等一次生成也是等,我們直接同時讓每張圖都生成多個角度,用來做后續視頻生成的參考,從而更精準地控制運鏡,讓視頻的畫面更豐富。
![]()
除了在原圖上做精細控制,還有一批工具是通過斜杠命令調用的。
這些工具更多是從這張圖出發,向外延伸出敘事接下來可以走的路,比如剛剛的多角度,在這里可以用“多機位九宮格”,讓模型自己分配、一口氣生成九個機位和景別的關鍵幀。
![]()
還有劇情推演四宮格,一次生成4個不同的劇情走向;25宮格連貫分鏡,一次出25幀,生成出來的多宮格圖像,可以用圖像工具欄里的宮格切分功能,直接送進新節點。
我們嘗試了一下,看著畫布直出25宮格并切分,莫名有種很爽的感覺。
![]()
值得一提的是,這些功能,本質都是從“一張圖”到“這張圖能延伸出的所有可能性”。這是一個非常順的動線,而非散點的。LibTV按照畫面的結構,涵蓋了光影、角度、景別、劇情推演等等元素,把對應的AI能力封裝了起來,可以看出他們對于模型和創作的Knowhow。
圖的部分走完,接著就是視頻的環節了:將一個或者多個圖像節點,連接上視頻節點,選模型、時長、比例、畫質。
LibTV在這里接入了可靈、Wan等幾乎所有主流視頻模型,不同模型有各自的適用場景,比如可靈O3可以聲畫同出,Seedream的中文、古風場景生成得更好,用戶可以根據需要靈活切換。
我們從剛才生成的25宮格里選了一些符合劇情變化的具體幀,嘗試把它們全部連起來,生成一段視頻。
![]()
效果大概就是這樣,挺驚嘆的。
畢竟在此之間,關鍵幀的生成對Prompt要求很高,作為業余用戶,我得靠大語言模型的外掛寫提示詞,但用25宮格的功能先批量生成圖片,再根據效果挑選,再到最終生成視頻,這個過程一個詞不用敲,只需要等結果,然后做判斷就好了,難度狠狠降低了。
視頻生成后,你還可以接著做剪輯,或者用視頻解析工具做一個更細致的拉片——它能把視頻拆成分鏡表,每一幀的景別、運鏡方式、提示詞全部標出來。如果你有想模仿的參考視頻,也可以上傳后,用這個工具先解析一遍鏡頭語言。
到這里,LibTV對素材的生成處理已經很完整了,但他們還沒停手。
除了圖片和視頻節點之外,還有“故事腳本生成”節點:你可以給它一段劇本大綱,它幫你生成對應的分鏡腳本。
關鍵是,腳本生成之后,點一下“批量生成分鏡”,所有鏡頭的圖就能一起跑出來;圖出來之后,點一下“批量生成視頻”,圖轉視頻這一步也批量完成。你可以針對單個分鏡或者視頻做調整,也可以全程自動化。
以這個用戶作品為例,可以直觀地看到整個流程的自動化程度:
這里有一個細節值得注意:當系統批量生成腳本的時候,就已經對圖片和視頻每一個分鏡做了提示詞創作,你不需要為每一個鏡頭單獨寫描述。你給方向,AI填細節,這意味著對用戶的專業門檻要求,又往下降了一層。
腳本節點的批量創作,是把執行的細節交給AI,人只負責判斷,那么Agent的加入,又往更低的“人含量”,邁了一大步。
LibTV在個人中心提供了Access Key,點擊右上角的Skills就能查看,讓你的Agent,包括OpenClaw、KimiClaw 等等,都可以通過安裝LibTV Skills來調用它的所有能力。配置過程很簡單,一句話讓Agent裝好Skills,把Key發給它,就可以用了。
![]()
在用的時候,你只需要告訴Agent想生什么,Agent自己調用LibTV Skills,把你的需求傳到LibTV的后端,后端Agent自己處理分鏡邏輯、選模型、調參數、生成內容,最后把結果返回給你,同時在畫布上建好對應的項目,所有節點都是串好的。
![]()
實測下來,我們能感覺到,流暢的功能編排和Agent的加入,都在讓這個產品變得更易用了。
1
把人和Agent放進同一張畫布
回到行業來看,視頻創作工具的本質,是填補創作者真實需求和模型能力之間的Gap。這個Gap不是模型不夠強,而是用戶想要的東西和模型能理解、能輸出的東西之間,始終有一段距離。大量非專業創作者沒有辦法用模型語言精確表達自己的意圖,于是催生了抽卡、到處傳提示詞的現象。
而LibTV這次做的事,就是在用一批非常務實的功能把這個Gap填得很細。
精細化的工具鏈,是把模型的黑箱輸出,拆解成創作者可以逐項介入的調節動作——光影可以調、機位可以選、劇情可以推演。模型負責生成素材,創作者負責做“選擇題”。
而Agent這一側,則有更長遠的意義。未來,隨著Skill的積累和調用工具、記憶能力的增強,Agent能夠逐漸從“執行簡單指令”進化到“理解創作意圖”。你今天調好的一個工作流,明天可以被Agent記住;你今天做的一個打光方案,下次可以被Agent復用;你今天為一個角色設定的三視圖,以后會成為Agent生成這個角色的默認參考。
而對現階段更有參考意義的事,當兩者在同一張畫布上協作,你可以先讓Agent跑出一個草稿,再對不滿意的節點逐一介入調整,壓縮從零開始的成本,創作者只需要把精力放在真正需要判斷的地方,其余的交出去。
這是一個漸進式的進化過程:模型提供底層的生成能力,Agent負責調度和記憶,創作者負責審美和判斷。三者之間不再是“人vs工具”的對立關系,而是一個協同進化的閉環。
畫布這個形態確實不新鮮,但LibTV往里裝的東西,讓它變得不一樣了。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.