![]()
智東西
作者 陳駿達
編輯 心緣
智東西4月27日報道,今天,阿里ATH創新事業部的最新視頻生成與編輯模型HappyHorse 1.0(官方譯名:快樂小馬)開啟灰度測試。創作者可在阿里云百煉平臺和HappyHorse官網注冊使用,大眾用戶可在千問App中體驗。
![]()
在盲測平臺Arena.ai上,HappyHorse 1.0在文生視頻、圖生視頻、視頻編輯三個榜單上均排名第二,僅次于前段時間爆火的字節Seedance 2.0。為驗證HappyHorse 1.0的真實效果,我們進行了多維度的實測。
![]()
只需輸入簡單的文字描述,用戶就可用HappyHorse 1.0生成一段3s-15s長度的視頻,視頻中可以實現多鏡頭切換、連貫劇情等要素。
官網顯示,HappyHorse 1.0分辨率最高支持1080p,最多可同時生成4個視頻,生成720P和1080P視頻的刊例價分別為0.9元/s及1.6元/s,Pro套餐包月價格疊加限時折扣后為0.44元/s和0.78元/s。
![]()
同時,HappyHorse 1.0也出現在阿里旗下多款產品中,如阿里悟空、MuleRun和JVS Claw等Agent平臺。千問App預告,近期將上線“測一測”視頻玩法,測出用戶在短劇宇宙的本名角色后,通過HappyHorse 1.0生成用戶本人“出演”的角色短劇片段。
在這次實測中,我們發現了HappyHorse 1.0在指令遵循、生成速度方面的明顯優勢,也看到了它在畫面物理準確性、音畫同步等方面仍有提升空間。以下是我們提煉出的核心體驗要點:
(1)生成速度快:體驗過程中,生成一段視頻僅需約2-5分鐘,與其他視頻生成模型相比有一定競爭力。
(2)指令遵循能力強:能準確理解并執行復雜的提示詞要求,包括鏡頭運動、畫面構圖、風格氛圍等。
(3)多元素參考還原度高:圖生視頻中能準確呈現所有上傳的參考元素,包括人物、場景、道具等。
(4)音畫同步仍有提升空間:人聲、音效等同步效果較好,但是在樂器演奏等復雜場景中,模型生成的手部動作與音頻節奏存在明顯錯位。
(5)長敘事易穿幫:10s以上的較長視頻中,容易出現物理bug,比如無外力物體自移動等等。
(6)文字渲染錯誤:畫面中出現的文字常出現亂碼或錯誤。
以下是我們的完整實測過程:
一、能理解800詞超長提示詞,物理真實性還有提升空間
我們的首批實測任務聚焦文生視頻能力。在這一場景中,模型的指令遵循能力、生成結果的物理準確性、音畫同步效果等都是值得關注的能力點。
案例1:復雜動作與音畫同步
提示詞: 街頭音樂表演,鼓手敲擊節奏、吉他手彈奏旋律,觀眾圍成半圈隨節奏拍手并輕微擺動身體,氛圍熱烈,拉美風格,傍晚暖色燈光,鏡頭緩慢推進。
HappyHorse 1.0的生成速度是一大亮點,下方視頻生成的耗時大概在2分鐘左右。從生成結果上來看,HappyHorse 1.0生成的人像沒有出現肢體異常、扭曲等問題,鏡頭運動、畫面燈光等元素符合提示詞要求。
音畫同步效果是這段視頻中的缺憾。吉他手的演奏和視頻里的音樂節奏不同步,尤其在某些快速掃弦和重拍落點上,畫面中的手部動作與音頻中的音符出現錯位,破壞了演奏的真實感與沉浸感。
案例2:物理真實性
提示詞: 海邊懸崖上,海浪猛烈拍打巖石,水花飛濺,天空烏云密布,風吹動人物衣服和頭發,電影級真實感,慢動作。
在這一案例中,HappyHorse 1.0需要完成對物理世界的模擬,其難點在于對水體、風這些元素的呈現。
最終,HappyHorse 1.0的生成結果很好地還原了波濤洶涌的效果,海浪與巖石的撞擊、海面上的泡沫都較為符合物理規律。
切換到人物后,主角頭發的飄動方向和衣服的飄動方向基本一致。美中不足的是,近景畫面中水滴滑落的速度不太符合物理規律,顯得略微慢了半拍。
案例三:超長提示詞
提示詞:
在這一案例中,我們考察了HappyHorse 1.0對復雜提示詞的理解能力。這段提示詞長達800詞,描述的是一個類似知名游戲《GTA》的實機演示畫面。
我們的提示詞對畫面中幾乎所有元素都進行了定義,包括人物、天氣、環境、建筑等等,HappyHorse 1.0對這些元素都做到了準確呈現。
不過,開頭的第一個畫面出現了物理bug,車門在沒有受到外力的情況下自己關閉了。最后一個鏡頭中,主角出現了變化,這顯示出HappyHorse在這一案例中的一致性方面還有提升空間。
![]()
案例四:鏡頭語言與敘事感
提示詞: 夜晚城市街道,一名偵探在雨中行走,霓虹燈反射在濕漉漉的地面上,鏡頭從遠景緩慢拉近到特寫,電影黑色風格。
上方提示詞對運鏡方式、畫面風格都做了細致的規定,這對HappyHorse 1.0的指令遵循能力提出要求。
最終,HappyHorse 1.0準確呈現了從遠景緩慢拉近到特寫的鏡頭要求,電影風格呈現準確,霓虹燈的光線和反射都較為自然,但畫面中的中文文字渲染有明顯錯誤。
在這一案例中,我們還采用了1080P的分辨率和最長的15s時長,可以看到,放大后的畫面細節依然較為清晰。
![]()
從這幾個案例來看,在提示詞要求較為詳細時,HappyHorse 1.0可以較好地理解并執行復雜的畫面構圖、鏡頭運動和風格氛圍要求,生成的人物形體與基礎物理交互也相對穩定;但在高精度音畫同步、微觀物理細節以及畫面中的文字渲染方面仍有提升空間。
二、最多支持9圖參考,實測讓奧爾特曼和馬斯克“對簿公堂”
除了文生視頻之外,HappyHorse 1.0也支持圖生視頻與視頻編輯,這些場景對一致性、穩定性提出了較高要求。不過,在今天的實際測試過程中,我們始終未能成功體驗視頻編輯能力。
案例一:首幀模式
我們首先嘗試了圖生視頻功能中的首幀模式,所上傳的圖片是OpenAI聯合創始人兼CEO薩姆·奧爾特曼和Anthropic聯合創始人兼CEO達里奧·阿莫迪前段時間的合影。
不過,可能是因為畫面中涉及多位真實人物,模型拒絕了這一生成請求。
![]()
之后我們上傳了奧爾特曼的單人照,要求模型生成他喝咖啡的畫面。這次嘗試最后成功了,畫面中人物與真人照片的相似度應該能達到8成左右,并且隨著光線和背景的變化,人物的樣貌沒有出現改變。
案例二:多人物參考
多圖參考中,我們上傳了馬斯克與奧爾特曼的圖像,要求HappyHorse 1.0提前想象一下這兩位人物對簿公堂、激烈爭吵的畫面。
這次HappyHorse 1.0也沒有拒絕我們的生成請求,它給出的首版生成結果中,并沒能體現出二人爭吵的效果,主要是“馬斯克”在單方面輸出。此外,模型似乎不理解這兩位人物的母語都是英語,畫面中“馬斯克”操著一口流利的中文。
再進一步細化要求后,HappyHorse 1.0能夠生成二人用英語爭論的畫面,其中人物的表情豐富,但是與參考圖相比出現了較為明顯的偏差。
案例三:多元素參考
除了上傳多個人物之外,多圖參考也允許用戶對視頻模型生成畫面的背景、具體元素等提供素材。我們便上傳了Sora核心人物Bill Peebles、OpenAI辦公室、紙箱等元素,要求HappyHorse 1.0生成一個離職的畫面。
在這一案例中,HappyHorse 1.0做得較高的方面是它準確呈現了我們上傳的所有參考元素,人物、環境等都基本一致。
然而畫面中出現了不少物理bug,比如紙箱自動合上,門自動打開等等。
三、1080P、生成速度成HappyHorse亮點
在HappyHorse 1.0開始測試之際,智東西等部分媒體與多位參與HappyHorse 1.0測試的業內人士與探討了這一模型目前的表現,及其在行業中的競爭站位。
出海一站式AI電商營銷平臺麥斯國際的技術合伙人李明認為,3s-15s的生成長度、較快的生成速度、支持1080P是HappyHorse 1.0的亮點功能。同時,在提示詞較為明確的情況下,模型的產出效果“還可以”。
然而,在實踐中,HappyHorse 1.0也展現出一些問題,比如生成視頻結果的一致性、生成語音內容的機械感等等。李明認為,HappyHorse 1.0與字節Seedance 2.0、OpenAI Sora 2等模型相比,“還有一些再提升的空間”。
我們向李明提及實測過程中遇到的音畫同步、文字渲染等問題。李明稱,字幕等文字內容的渲染其實是當前AI視頻生成模型的通病,目前業內很少靠大模型直接生成,而是會借助后期工具進行補充,這種模式也給調整留有余地。
音畫同步方面,李明觀察到通過更好的提示詞工程,可以提升HappyHorse 1.0、Seedance 2.0等模型的音畫同步效果,但這些模型目前在音畫同步維度多少還存在一些問題。
李明判斷,對企業而言,當前視頻生成模型的生成質量仍是一個普遍存在的痛點,部分創作團隊的“抽卡率”甚至高達50%-60%。生成的時效性也還有提升空間。
相比之下,價格反而是用戶更容易接受的維度。如果能做到又快又好,用戶對價格的接受度自然會隨之提高。
參與內測的AI視頻創作平臺FLOVA相關團隊認為,HappyHorse 1.0模型在真實感與敘事能力上表現不錯,尤其適合敘事性內容、紀錄片風格的題材。
同時,HappyHorse 1.0的焦段運用接近實拍,減輕了視頻的“AI感”,讓觀感更加真實,其鏡頭運動也比較自然。
結語:一匹有潛力的“快樂小馬”
從我們的體驗感受來看,HappyHorse 1.0可以是一款不錯的的視頻生成模型,其較強的指令遵循能力為專業創作者提供了更多的精細化控制的空間,一定程度上降低了反復抽卡、試錯帶來的資源浪費。
然而,HappyHorse 1.0的畫面還有不少可提升的空間,比如畫面的“油膩感”、物理準確性等等。隨著HappyHorse進一步迭代,這一模型有望在真實生產場景中發揮更大作用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.