編輯|楊文
神秘的「歡樂馬」,終于顯露真身。
![]()
4 月 27 日,阿里 ATH 團隊正式上線視頻生成模型HappyHorse 1.0
該模型依托原生多模態架構,不僅實現音視頻一鍋出,還能創作、編輯一個平臺全搞定,再也不用來回倒騰。
![]()
它的「戰績」我們之前也報道過,曾在知名 AI 評測分析平臺 Artificial Analysis 上屠榜,文字生視頻和圖像生視頻雙雙拿下第一,把 Seedance 2.0 擠到了第二。
在 Arena 榜單排名,視頻編輯排名第一,圖生、文生視頻排名第二。
![]()
先來幾個 case 嘗嘗鮮。
在狹窄小巷里騎行,高速運動動作絲滑流暢,鏡頭切換也很自然。
![]()
Prompt : A cyclist racing through a narrow alley, handheld camera feel, dynamic motion blur, realistic shadows, intense pacing, cinematic.
倉鼠開玩具車追奶酪,鏡頭低機位追逐、快速跳躍、轉彎翻滾,連貫且充滿張力。
![]()
Prompt : High-speed chase thriller reimagined as a hamster in a toy car pursuing a rolling cheese wheel through a kitchen obstacle course, featuring low-angle ground-level pursuits, quick-cut jumps over utensils, barrel rolls around corners, and a triumphant slow-mo finish line cross with confetti explosions (vibrant cartoonish hues, pulsating electronic score).
可以這么說,畫面質感、鏡頭運動、人物真實感與內容可控性,逐項拉出來比,HappyHorse 1.0 都很能打。
價格方面也相當良心。HappyHorse 1.0 主打一個性價比,720P 和 1080P 的視頻生成每秒分別僅需 0.9 元和 1.6 元,專業會員包月價格疊加限時折扣后為每秒 0.44 元 和 0.78 元。
目前,該模型已經開放體驗,全球專業創作者和企業級客戶可在 HappyHorse 官網和阿里云百煉平臺注冊使用,大眾用戶可在千問 App 體驗。
- 國內版: https://www.happyhorse.cn/
- 海外版: https://www.happyhorse.com/
接下來,我們就搶先實測下,看看這匹歡樂馬是個什么段位。
視頻生成:
運鏡、配樂、音效,一鍋全給你出了
HappyHorse 1.0 主要有兩大功能,一是視頻生成,一是視頻編輯。
我們先來看下視頻生成。它支持傳統的文生視頻、圖生視頻,以及多圖參考生視頻,三種出片方式覆蓋了從零起步到素材延展,各有各的玩法。
![]()
比如,我們僅輸入一個簡單的提示詞:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue),模型就能自己搭建小型 comedy club 的舞臺環境,自己編段子,安排觀眾反應、表演者語氣和肢體動作。
仔細看成品細節,我們可以發現,觀眾坐姿各異卻不違和,演員的表情也會隨段子節奏變化,口型與對白能保持同步。這也說明,HappyHorse 1.0 具備很強的場景理解與內容自編能力。
![]()
如果想生成一支籃球廣告片,給個提示詞:Make a professional ad for baseketball,不到一分鐘,HappyHorse 1.0 直接搞定。
生成畫面中,運動員完成連續的運球、起跳、投籃,動作銜接流暢,一氣呵成,同時在關鍵瞬間自動帶入慢動作處理。要是再補上品牌 Logo,觀感已經非常接近一支真正的商業廣告大片。
![]()
在多人表演、鏡頭調度和 MV 質感生成上,HappyHorse 1.0 只靠一段提示詞,就能同時完成五人女團的統一造型、整齊舞蹈和演唱表演,還準確理解了廣角推進、成員近景 wink 等鏡頭切換,以及最后定格群像的收尾。
![]()
Prompt : K-pop girl group MV. In a futuristic photography studio, five members dressed in pink-and-white stage outfits perform an energetic group dance, singing "Falling petals fill the sky, veiling the moonlight."The shot transitions from a wide-angle dolly to a close-up wink of the central member, ending with the full group freezing in a powerful finale pose amid intense lighting and a rain of silver sequins. The visuals are clean and bright, with a fast pace, brimming with commercial polish.
多主體場景一直是 AI 視頻生成的難點,在下面這個人類和機器人踢足球的測試中,人類球員的帶球、過人、推進,再到最后射門得分,動作銜接絲滑,多個主體在同一鏡頭語言下協同運動,沒有各演各的。
![]()
Prompt : Soccer of the future, mixing people and robots. This is a fragment from a 2026 cinematic movie.
該模型還支持 3 到 15 秒任意時長,我們可以隨意滑動模塊設定,它會根據不同時長搭配合適的鏡頭。
![]()
Prompt : The camera glides high above the sun-soaked cliffs of Monaco, nearly at helicopter-level. Below, a red-and-white 1980s Formula 1 car drives its way through the city circuit, a flash of polished paint and screaming power. Revealing a tightly woven tapestry of pastel architecture, narrow switchbacks, and the glittering blue of the Mediterranean beyond. The car is a blur of speed and precision—its silhouette dancing through hairpin turns and tunnel shadows, kissed intermittently by bright shafts of sunlight. The film look is raw and tangible: natural motion blur, gentle film grain, and sun-washed highlights mimicking vintage 35mm racing documentaries.
這段提示詞信息量略顯密集,要求直升機視角俯瞰、1980 年代 F1 賽車穿行城市賽道,并呈現 35mm 膠片紀錄片的質感,涉及具體的鏡頭運動、色調風格等。
模型對鏡頭語言指令的理解還是比較到位,運鏡跟隨賽車的節奏銜接順暢。
在風格適配方面,HappyHorse 1.0 也能 hold 住,比如下面這個卡通版微型景觀風格。
桌面微縮城市的比例感準確,小汽車穿行其間的景深處理到位,拉鏡頭的軌跡也很講究。
![]()
Prompt : tiny city built on a desk, small cars moving, camera fly-through, playful, crisp detail.
文生視頻部分,HappyHorse 1.0 生成效果還是很穩的,不同風格、不同場景、不同復雜度的提示詞,它給出的結果沒有明顯的崩盤情況。
它也支持圖生視頻
我們直接丟給它一張北京旅行的九宮格照片,讓它為每一格照片單獨生成一小段視頻,最后按順序串聯成一支完整的旅行 vlog,并配上輕快的音樂。
![]()
HappyHorse 1.0 生成的視頻中,每張原始照片中的人物、構圖、服裝、表情和地點細節都得到了保留。
動態效果輕柔自然,帶有真實的手持感、細微鏡頭晃動和輕微的推進或平移,看起來更像是相機拍出來的。
![]()
不過成片中也有些小 bug,比如最后一個鏡頭中的文字出現了亂碼等。
參考圖生視頻模式還可以上傳最多 9 張圖片,設置好每個鏡頭的提示詞,它就能「腦補」一出大戲。
![]()
就比如下面這個騎士大戰怪獸的測試,模型能夠理解每一張圖所對應的情節節點、角色狀態和鏡頭意圖,再將它們自動串聯成一段起承轉合的小動畫,只可惜最后的鏡頭還是有點像動態 PPT。
![]()
視頻編輯:
不用「重拍」,一句話改到位
再來試試視頻編輯功能。
AI 視頻編輯一直難做,因為視頻內容復雜,涉及到的不僅是畫面本身,還有人物、背景、動作和細節的融合,稍有不慎就會穿幫。
過去,雖然有一些 AI 視頻編輯工具,但往往效果不佳。比如替換人物時,背景和人物的邊緣銜接不自然,或者風格轉變后畫面質量大打折扣,更別說多元素同時改動了。
但現在,一句話就能讓 HappyHorse 1.0 精準替換主體、添加新元素,或者改變風格,同時保證畫面其余部分不瞎改。
比如,我們將原視頻中的貓咪替換成金毛犬,二者搖尾巴動作、沙發背景和鏡頭切換完全一致,連戴墨鏡這個細節都原樣保留,看不出什么貼片感。
![]()
再比如,原視頻是一輛賽車經過便利店門口,我們輸入提示詞「汽車駛過的同時,一個穿著時髦的金發美女從便利店里推開門走出」。
這比單純換主體難度更高,需要憑空添加一個人物,還要讓她的出現符合原視頻的空間邏輯、鏡頭角度和光線條件。
模型完全遵循文本描述,整體與原素材的融合幾乎感覺不到拼接的痕跡。
![]()
或者將動漫風格改成寫實風格,這個過程中 HappyHorse 1.0 沒有出現風格過渡失真或人物、動作形變等毛病。
![]()
結語
這兩年,AI 視頻生成卷到冒煙。要想在這個圈子占據一席之地,必須得有兩下子。
HappyHorse 1.0 的兩下子,不是靠噱頭堆出來的。它老老實實在畫面質感、人物真實感、運鏡流暢度等基本功上下功夫,偏偏這幾件事,內容生產者每天都要跟它們較勁。
同時,內容生產是反復修改的持續迭代過程,它這次沒有把視頻生成和視頻編輯割裂開來,也是一次較大的突破。
目前 HappyHorse 1.0 也只是小試牛刀,它仍在不斷進化中。不過,開場就有這個成色,后面的表現著實令人期待。
文中視頻鏈接:https://mp.weixin.qq.com/s/rvs2rfQTgldbhH7AZHAC1A
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.