![]()
4月7日,一個沒有公司署名、沒有官方聲明、連GitHub倉庫都指向"即將上線"的視頻生成模型,悄悄出現在了全球最權威的AI視頻競技場Artificial Analysis的排行榜上。
七天之后,它登上了榜首。
它的名字叫HappyHorse-1.0。在Artificial Analysis的盲測體系中,文生視頻方向Elo分1333、圖生視頻方向Elo分1392,兩個榜單雙料第一,將字節跳動的Seedance 2.0、快手的Kling 3.0、谷歌的Veo 3.1遠遠甩在身后。這是迄今為止圖生視頻方向的歷史最高分。
讓這件事更耐人尋味的是:在奪得榜首之前,沒有人知道它是誰做的。
這個排行榜,為什么騙不了人
大多數AI基準測試都有同一個漏洞:發布數字的,正是做出模型的人。
Artificial Analysis不一樣。它的Video Arena采用的是盲測加Elo積分制——用戶提交一個提示詞,系統同時用兩個匿名模型生成視頻,用戶在不知道來源的情況下選出更好的那個,票數按Elo算法(與國際象棋等級分相同的數學邏輯)累計成最終排名。60分的Elo差距,意味著一個模型在兩兩對決中大約有58%到59%的勝率。而HappyHorse-1.0在文生視頻方向領先第二名整整60分。
這個分數是數萬個人類真實偏好投票的結果,沒有實驗室的自我匯報,沒有精心挑選的演示樣本。Artificial Analysis在宣布這個模型進入競技場時,用了一個詞:"pseudonymous"(匿名投稿)。換句話說,連平臺自己都不知道背后是誰。
那段時間,榜單上的排名每天都在變。HappyHorse-1.0短暫從榜單消失了一次,然后又回來了。事后復盤,那很可能不是技術故障,而是一次刻意的停頓——在確認公開聲明之前,先暫時撤下。
在最好的時機,踢開了最脆弱的門
4月10日,阿里巴巴旗下淘天集團的Future Life Lab正式承認:HappyHorse-1.0是他們做的,隸屬ATH AI創新部門,技術負責人張迪,此前是快手副總裁、Kling AI的技術主導者。
這個時機,幾乎算是精準踩點。
就在HappyHorse出現前后,AI視頻生成賽道兩個最強的西方選手接連出了問題。OpenAI在2026年初關閉了Sora的獨立應用和平臺,給出的理由是算力成本過高、戰略重心轉向AGI和企業工具;而字節跳動的Seedance 2.0雖然憑借自帶剪輯分鏡的視頻效果引爆了AI漫劇行業(甚至有制作公司把上班時間改到凌晨三點,只為搶占低峰期的算力),卻在全球推廣中撞上了好萊塢主要制片廠和流媒體平臺的版權投訴,被迫暫停國際擴張。
兩強同時空出位置,留下了一個等待被填補的真空。用一位觀察者的話說:"HappyHorse不是打贏了對手,是對手在同一時間倒下了,而它剛好站在那里。"
當然,"剛好站在那里"本身就需要過硬的東西。Elo分不會說謊。
一個架構決定,讓音頻不再是"后期"
視頻生成領域長期存在一個隱性的分裂:生成視頻是一件事,配上聲音是另一件事,二者由不同的模型或工具完成,然后拼接在一起。這套流程的代價是明顯的——嘴型對不上,環境音突兀,配樂像是粘貼進去的。
HappyHorse-1.0的架構選擇打破了這個分裂。
它采用的是單流統一Transformer結構,40層自注意力網絡,文字、圖像、視頻幀、音頻四種模態的token從始至終在同一個序列里處理,沒有專門的跨模態注意力模塊。官方的說法是"三明治架構":首尾各4層模態專屬層,中間32層全模態共享層。音頻和視頻在生成過程中始終是同一次前向傳播(forward pass)的產物,不是事后合成的。
結果是什么?口型精確對上了語音,腳步聲踩在地面接觸的那一幀,背景噪音隨著場景切換自然過渡。它目前支持7種語言的音視頻同步生成,包括英語、普通話、粵語、日語、韓語、德語和法語。在"有音頻"類別的排行上,HappyHorse-1.0位列第二,僅次于谷歌Veo 3.1。
這個排名有意思的地方在于:在傳統上最難做好的維度,一個"神秘新來者"的表現接近了調動了谷歌全部多模態研究積累的Veo系列。
開源的承諾,和一個"即將上線"的空鏈接
故事到這里有一個裂縫,值得直接說清楚。
HappyHorse-1.0官網上寫著:基礎模型、蒸餾模型、超分辨率模塊、推理代碼,全部開源,Apache 2.0授權,允許商用。這在技術圈引發了大量轉發和期待。
截至4月14日,HuggingFace的模型頁已經存在,README文檔在當天仍在持續更新——但文件列表里只有兩個文件:.gitattributes 和 README.md。沒有模型權重,沒有推理代碼,沒有任何可以實際運行的東西。比起此前各家官網指向的"coming soon"空鏈接,這是一個進步,但距離"真正可用的開源"還差最關鍵的一步。
"名義上開源"和"真正可用的開源"之間,有一道需要被跨過的門。
對開發者來說,開源意味著能下載權重、運行推理代碼、基于它做微調。目前這些都還不存在。阿里巴巴承諾了API接入的計劃,但時間表不明確。
這不是要否定這個模型的技術成就。Elo排名是真實的人類偏好數據,跑不掉。但如果把HappyHorse-1.0納入實際產品決策,現在需要的不是Elo分,而是一個可以調用的接口或可以運行的權重文件。兩者都還不在。
快手出走的人,在阿里做出了什么
前快手副總裁、Kling AI技術主導者張迪,是這個項目公開身份中可見度最高的名字。
Kling系列是快手在視頻生成賽道的代表作,2024年以流暢的人物動作生成在業內建立了口碑。張迪之后加入阿里巴巴淘天集團,主導了Future Life Lab。HappyHorse-1.0的推理速度優化思路——用DMD-2蒸餾將去噪步驟壓縮到8步,配合自研的MagiCompiler推理編譯器——在Kling系列的工程迭代中能看到類似的脈絡。
這條人員流動線索,某種程度上解釋了為什么一個"神秘模型"能在上線一周內就達到歷史最高Elo分:做模型的人,不是第一次做模型了。
不過阿里的"認領"聲明里有一句話耐人尋味:項目"仍在開發中"。這通常意味著眼前的版本不是終態——它更像是一次技術摸底,用真實榜單驗證架構方向是否正確,然后決定下一步怎么走。
當Sora退出,戰場變成了中國公司的主場
更大的背景是:AI視頻生成這條賽道,正在快速變成一場中國公司之間的競爭。
OpenAI關閉Sora之后,其他主要選手還剩Runway Gen-4和Luma Dream Machine。但這兩家的Elo分與頭部中國模型的差距在過去三個月內持續擴大。字節的Seedance 2.0雖然遭遇版權風波,但技術底子依然扎實。阿里的HappyHorse橫空出世,把Wan 2.7系列的既有積累與新架構整合,直接沖到榜首。還有快手Kling 3.0、PixVerse V6持續迭代。
這不是一兩個爆款模型的偶然,而是整個中國視頻生成研究群體在過去兩年密集積累之后的集中浮現。
一個值得關注的價格信號:中國AI視頻工具目前的商用定價,普遍在每秒生成內容約4美分左右,而西方同類服務的價格高出數倍。如果HappyHorse-1.0的API如期開放,開發者將面臨一個真實的選擇:在畫質和速度接近甚至超越的前提下,是否愿意把視頻生成底層依托在一個中國公司提供的接口上?
這個問題,答案不會只有一種。
Q&A
Q1:HappyHorse-1.0的Elo排名是否可信,會不會是刷榜?
Artificial Analysis Video Arena的機制本身針對刷榜做了設計——用戶看不到是哪個模型生成的,投票基于真實偏好,Elo算法會根據對手強度加權。另一個佐證是,HappyHorse在"有音頻"類別中排名第二,如果是刷榜優化,通常會針對全部類別同時拉高,而非在某些維度有明顯落差。短期內憑借某類生成風格的優化偶爾占優是可能的,但持續領先60+ Elo分需要大量比賽場次的穩定勝出,這不是短期操縱能做到的。
Q2:HappyHorse-1.0最核心的技術突破是什么?
最值得關注的是單流統一Transformer對音視頻的聯合建模。傳統模型把視頻和音頻分開生成再合并,導致同步誤差。HappyHorse把所有模態放進同一個token序列,在一次推理過程中同時輸出視頻幀和同步音頻,這從根本上消除了"拼接"帶來的對不上問題。配合DMD-2蒸餾(8步去噪)和MagiCompiler加速,在H100上生成1080p視頻約38秒,比同級別模型快30%。
Q3:現在能用HappyHorse-1.0做項目嗎?
目前只能通過官方在線平臺試用,沒有公開的API接口,也沒有可下載的模型權重。HuggingFace頁面已上線,文檔持續在更新,但模型權重和推理代碼尚未發布。對需要接入實際產品或工作流的開發者和制作團隊來說,HappyHorse-1.0現在的價值更多在于"了解技術方向",而非立刻可以落地部署的工具。
END本文來自至頂AI實驗室,一個專注于對AI計算機、工作站及各類AI相關硬件設備,開展基于真實使用場景評測的研究機構。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.