![]()
生成式 AI 的下半場:讓創意重新連貫。
作者丨鄭佳美
編輯丨馬曉寧
![]()
現在的 AI 生成技術突飛猛進,但視頻創作仍然是一件“高門檻”的事。
雖然生成式 AI 帶來了前所未有的創作能力,但整個流程仍然瑣碎。創作者需要先寫腳本,再用文生視頻工具生成畫面,隨后還要處理配音、剪輯、字幕、節奏……每一步都依賴不同的軟件。專業團隊可以用流程去銜接這些環節,但對普通創作者來說,這樣的分工往往意味著更多的時間成本和學習負擔。
AI 讓創作更容易開始,卻還沒有讓創作變得更連貫。真正的突破,也許不是更大的模型或更強的算力,而是讓 AI 真正理解創意、參與創作。只有當這些分散的環節被重新連起來,創意才能自然流動。
未來的 AI 視頻創作,或許不在于增加更多工具,而是在于形成一個統一的系統——讓文字、圖像和聲音能在同一個空間協作,讓構思、生成和調整在同一語境中完成。
而現在,這種改變,正在被昆侖萬維逐步實現。
01
全新 SkyReels:創作不再有縫隙
昆侖萬維最新推出的全新 SkyReels,就是在這種“重構創作方式”的思路下誕生的。它不是又一款單一的生成工具,而是一套讓創作重新回到“統一與流動”的多模態系統。
在全新 SkyReels 里,圖片、視頻、音樂和人聲講解等元素都被放在同一個空間中理解和生成。創作者不用再在不同平臺之間來回切換、反復導入導出,而是能在同一張畫布上完成構思、生成和調整。創作的過程因此變得更順暢,創意也能自然地延伸下去。
為了讓更多人進入這種新的創作方式,全新 SkyReels 還設計了3 種方式:
它既可以讓熟悉 AI 的創作者可以直接生成圖像、視頻、音頻或數字人,也能幫助希望獲得更結構化幫助的用戶,可以調用近三十個聚焦具體場景的 Agent,獲得任務級協助。除此之外,初學者或效率導向的創作者,只需使用模板,輸入文字或替換畫面,即可快速完成創作。
而這一切,都發生在一張無限畫布上。畫布讓不同模態的內容以拖拽的方式被組織與組合,讓創意的邊界隨著操作而自然擴展。在全新 SkyReels 上,創作不再是對模型的調度,而是一次對思維的可視化延伸。
更深層的變化來自昆侖萬維的Agentic Copilot。在這個系統中,有一個 Super Agent 統籌著整體創作方向,近三十個 Expert Agent 分工協作,覆蓋腳本、鏡頭、音效、剪輯等各個環節。創作者只需用自然語言表達需求,或上傳素材、提供鏈接,AI 便能在多模態內容中完成理解、生成與優化。
在理念層面,全新 SkyReels 已經描繪出一種更自然、更連貫的創作方式,而在實際體驗中,這種重構也并非概念上的想象,而是能夠被直接感知到的變化。
AI 科技評論對畫布與Agent 系統等功能進行了一手實測,用更直觀的方式還原了它們在實際創作過程中的表現。
![]()
02
實測畫布:當創作不再被切割
當我們在畫布中加入一張靜態圖片并讓它動起來時,生成的效果出乎意料地生動。畫面中的主體在落腳處出現了輕微的下壓與形變,連腳下柔軟墊子的塌陷感都被自然捕捉。
除此之外,原本貼在畫面中的 2D 卡通貼紙,也被轉譯成具有體積感的 3D 元素,與整體光影氛圍融為一體。這種細節層面的真實感,讓生成的畫面不再是“動起來的圖”,而更像是一段真正拍攝出的片段。
同時,畫布還支持將文字直接生成語音。只需在界面中輸入臺詞或旁白,系統便能自動生成語氣自然、情感流暢的聲音,為畫面增添完整的敘事節奏。無論是品牌講解還是人物旁白,語音都能與畫面氛圍保持統一,讓靜態的創意真正“說話”。
我們還用畫布生成了一段 ASMR 視頻,主題是“星辰摩擦的聲音”。模型在生成時準確捕捉了聲波的顆粒感與空間分布,聲音層次分明,節奏自然,帶有切割肥皂般的細碎觸感。視覺與音頻在同一畫布內被同步渲染,整體效果極其干凈、細膩。
03
實測 Agent:當創意開始被承接
除了畫布功能,當你打開首頁時,還會發現這里有很多針對不同領域的專業 Agent。它們覆蓋市場營銷、電商內容、創意故事、虛擬形象等多個方向,用戶可直接選擇所需場景,即刻進入任務級創作,無需額外配置或學習。
![]()
我們先是用 Agent 創作了一個關于奧德修斯冒險的旁白故事視頻。從人物造型、腳本撰寫,到靜態畫面的生成、動態鏡頭的延展,再到解說人聲和字幕的添加,整個流程幾乎無需額外干預。
你只需要提供一個想法,并勾選希望呈現的元素,系統就能自動組合成一段結構完整、節奏自然的解說視頻。
除此之外,我們還用 Agent 做了一個 15 秒的護手霜廣告視頻實驗。只上傳了一張產品圖,并輸入提示詞:“我要推廣一款護手霜,目標受眾是都市白領,風格輕快。”
Agent 在幾分鐘鐘內生成了完整的廣告腳本與畫面方案。鏡頭從手部特寫緩緩推進到產品包裝,背景是干凈的辦公場景與自然光線交織的氛圍,鏡頭節奏輕盈,背景音樂也是干凈明快。
整個視頻沒有過度渲染,卻精準拿捏了品牌感與氛圍感的平衡。從一張靜態圖片到完整成片,系統只用了幾分鐘的時間,而且可以讓你明顯地感受到,這已經不只是“生成內容”,而是在“理解創意”。
04
實測數字人:當生成內容開始有情緒
而到了數字人板塊,官方展示的 Demo 效果同樣令人印象深刻,人物的表情細節、眼神互動和說話節奏都非常接近真人。這樣的完成度讓我們對數字人板塊產生了好奇,也想看看在真實使用場景下,它的表現是否依然自然流暢。
測試中,我們先是上傳了一張老馬與老黃的經典名場面圖,并為其添加了相應的臺詞。最終在生成的視頻中,兩位角色的語氣自然流暢,表情與身體細微動作精準匹配語音節奏。無論是說話時的輕微點頭、視線的轉移,還是停頓與呼吸的節奏,都呈現出接近真人表演的真實感。
在相同的對話內容下,我們還生成了一個由奧特曼單人出演的數字人視頻。整體表現依舊流暢,語音與表情同步自然,人物在說話時的停頓與呼吸節奏也得到了較好還原。單人場景在情緒表現上更加集中,更容易看出模型對語音細節的捕捉能力。
值得一提的是,全新 SkyReels 是業內首個支持單鏡頭多人多輪對話的數字人模型。它能精確控制每個角色的發聲時機與語氣節奏,讓多角色互動自然連貫,呈現出極具“真實對話感”的生成效果。
除此之外,我們還測試了一下全新 SkyReels 的其他功能。
例如在風格化測試中,我們嘗試將一段蜘蛛俠視頻轉換成樂高風格。最終的生成結果的轉譯非常干凈,動作邏輯完整,光影層次保留,人物在變為積木結構后仍具動感與體積感。
而全新 SkyReels 在視頻延長測試中也有不俗的表現,我們先是上傳了一段僅有一張主角正臉的視頻,并給出提示詞: “固定鏡頭,過肩視角,透過男人的背影看到女人含羞地一笑,然后開口說話。”
最終生成的視頻令人驚艷,鏡頭反轉后,原片中僅作背景的女性角色被完整生成,她的表情從微微低頭到抬眼、輕笑,再到開口說話的細微變化都被自然捕捉,情緒層次清晰。
整個延展片段不僅延續了原有畫面的光影與色調,還在情感上實現了順暢銜接,讓延展效果幾乎無縫銜接。
整體測下來,全新 SkyReels的實用性超出預期。它的功能覆蓋了創意工作者最常用的生產環節 —— 無論是電商營銷視頻、自媒體內容,還是廣告、設計、影視創意等場景,都能在幾分鐘內完成從構思到成片的全過程。
而在與 Agent 協作時,系統會主動確認每個創作細節,用戶也能隨時表達和修改自己的想法,整個過程像一次自然的創意對話。
值得一提的是,SkyReels 已正式上線移動端。它在手機上完整保留了 Web 端的核心創作功能,讓用戶能夠隨時捕捉靈感、快速生成內容。即使沒有專業設備,僅憑一部手機,也能輕松創作出專業水準的視頻
05
技術之下,是統一的多模態思維
優秀的實測結果背后,是 全新 SkyReels 所依托的統一多模態學習框架。
無論是基于圖片、音頻還是視頻的生成任務,所有模型都共享同一個Multi-modal In-Context Learning預訓練基礎,再通過任務級精調進行差異化優化。這種設計讓模型能夠在不同模態之間建立穩定的語義聯系,實現跨模態的一致性與泛化能力。
在圖片驅動的視頻生成中,全新 SkyReels 版本重點解決了“多主體一致性”與“背景連貫性”問題。模型通過跨幀配對策略和圖像編輯模型的聯合預處理,精準分離主體與背景,并在生成過程中進行語義級的重組,而非簡單的圖像拼接。再結合圖像-視頻混合訓練與多分辨率聯合優化機制,使模型在主體保持、動作延展和指令響應上同時提升。
這一改進使得其在參考圖一致性與視覺質量指標上均超越主流閉源模型。
![]()
而在音頻參考生成上,全新 SkyReels 基于 SkyReels-A3 框架進行了全新設計。通過引入區域路由機制,模型能夠在單鏡頭中識別多角色并分別生成對應嘴型,實現自然的多輪對話。
此外,系統支持相機運動參數的監督學習,可在同一時間組合多種運鏡,也能在不同時間實現平滑切換。關鍵幀插幀范式的加入,使其能在分鐘級時長內保持高質量嘴部對齊與動作一致性。在官方評測中,模型在嘴部同步、視頻質量(IQA 4.58)與角色一致性(ID 0.78)等指標上均達到閉源 SOTA 水平。
![]()
不光如此,V3 在視頻參考任務上也實現了三類生成的統一——延長、編輯與風格化。
它通過設計不同任務的空間位置編碼和專屬嵌入,讓模型能理解參考視頻與生成視頻的關系,從而在同一結構下完成多種任務。同時結合 token concat 與 channel concat 的優勢,大幅減少計算量的同時保持高質量輸出。
延長模型通過語義級預測,支持 Cut-In、Cut-Out、Reverse Shot 等多種切鏡銜接方式,風格化模型則依托自建的自動化風格數據生成與篩選系統,構建了高質量風格配對數據集,實現穩定且可控的藝術化生成。
總的來說,從架構到訓練,全新 SkyReels 的核心競爭力在于對“統一性”的徹底實現。
它通過多模態聯合訓練,讓模型能在不同輸入之間形成共享語義空間,通過跨任務的結構設計,讓延展、對話、編輯、風格化具備同樣的理解邏輯, 最終在一致性、畫面質量和生成可控性上同時提升,成為目前少數能在圖片、音頻與視頻任務中都達到閉源水準的多模態生成模型。
但這不僅僅是模型層面的升級,其實它更是創作邏輯的一次重構。全新 SkyReels 所實現的“統一”,不僅是把多模態能力融合在一起,更代表著 AI 理解世界方式的一次跨越——它不再把圖像、聲音、文字當成彼此孤立的信號,而是以語義為底層語言去思考、生成和表達。
當技術真的具備這種語義上的連貫性時,創作就不再是“調用模型”的過程,而更像是一種思維的自然流動。這正是全新 SkyReels 的意義所在——讓 AI 的力量,重新回到創意本身。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.