![]()
機器之心報道
機器之心編輯部
GPT-5.2 更新的同時,主攻 AI 視頻與多媒體生成技術的獨角獸 Runway 也來了一波大的:一口氣來了 5 個「激動人心的宣布」。
![]()
這一波更新之猛,甚至讓人覺得他們是不是把過去半年的大招一次性全放了出來。Runway 這一波發布,不僅刷新了視頻生成的各項指標,更重要的是,他們正式對外展示了其在通用世界模型(General World Models/GWM)上的野心。
如果說之前的競爭還在于誰生成的視頻更清晰、誰的時間更長,那么 Runway 今天似乎想說:「我們不再只是生成像素,我們在模擬世界。」
此次發布的「全家桶」陣容豪華:
- Gen-4.5:最新的旗艦視頻生成模型,不僅畫質驚人,更引入了原生音頻生成與編輯功能。
- GWM-1:Runway 的首個通用世界模型,這是理解物理世界運行規律的基石。
- GWM Worlds:基于 GWM-1 的環境模擬器,讓你在無限的數字世界中實時探索。
- GWM Avatars:音頻驅動的交互式視頻模型,讓數字人擁有了自然的靈魂。
- GWM Robotics:打破物理瓶頸,為機器人訓練提供合成數據的學習型模擬器。
更有意思的是,為了慶祝這一時刻,英偉達 CEO 黃仁勛還專門給 Runway 發來了一條特別的節日祝福。
話不多說,下面我們就來看看 Runway 到底要把我們帶向一個怎樣的未來。
Gen-4.5
作為 Runway 最新的旗艦視頻模型,Gen-4.5 主打的是畫面保真度和創意控制能力。
先來看看官方宣傳片:
![]()
性能表現也很不錯:
![]()
總的來看,Gen-4.5 的生成能力有以下特點:
1、精確遵循提示
Gen-4.5 實現了極高的物理精度和視覺精確度。物體以逼真的重量、動量和力量移動。液體以正確的動力學流動。表面細節以極高的保真度渲染。而發絲和材料紋理等精細細節在運動和時間中保持連貫。
![]()
提示詞:A continuous shot with no scene cut.We see water coming out of a garden faucet filling up a rusty metal bucket.Right below the bucket is a perfect folded white paper boat with a small yellow flower.The boat rides down a small river of water and enters a house,ending the journey in front of a broken TV.
2、風格控制和視覺一致性
Gen-4.5 能夠處理多種美學風格,從照片級真實感和電影感到風格化動畫,同時保持連貫的視覺語言。
![]()
提示詞:A cinematic scene highlights a young woman with striking features,captured in a close-up that emphasizes her intense gaze.The camera focuses on her face,showcasing her platinum blonde hair.
除此之外,Gen-4.5 現在也支持原生音頻生成和原生音頻編輯了!
![]()
也就是說,你不僅能夠生成帶有音頻的新視頻,還能根據自己的需求編輯現有視頻的音頻。
不僅如此,Gen-4.5 還引入了多鏡頭編輯功能。借助多鏡頭編輯,你可以對初始場景進行更改,并將該更改應用到整個視頻中。
![]()
不過,Runway 也坦言,Gen-4.5 仍有一些視頻模型常見的局限:
- 因果關系推理:有時結果會先于原因發生(例如,門在把手被按下之前就打開了)。
- 客體恒存性:物體可能會在幀之間突然消失或出現(例如,一個杯子在被遮擋后消失)。
- 成功偏差:行動的成功率高得不成比例(例如,一次瞄準不佳的射門仍然進球)。
Runway 表示,這些局限性在他們的世界模型研究工作中尤為重要,因為世界模型需要準確反映在環境中采取行動的結果。他們正在積極研究解決這些問題的方法。
目前,Runway 正在逐步開放對 Gen-4.5 的訪問權限,它將在未來幾天內向所有人開放。
GWM-1
這一次,Runway 還推出了自家的首個通用世界模型:GWM-1
據介紹,GWM-1 是基于 Gen-4.5 構建的,但有一個關鍵區別:它是自回歸的。
也就是說,GWM-1 采用了逐幀預測的方式。這也意味著,在任何時刻,用戶都可以根據應用場景進行干預,例如在空間中移動、控制機械臂或與智能體交互,模型都會模擬接下來發生的事情。
![]()
目前,GWM-1 有三種變體:
- 用于可探索環境的GWM Worlds
- 用于對話角色的GWM Avatars
- 用于機器人操作的GWM Robotics
![]()
Runway 表示:「目前這些是單獨的后訓練模型。我們正在努力將許多不同的領域和動作空間統一到一個單一的基礎世界模型之下。」
![]()
他們認為:「世界模型處于 AI 進步的前沿。僅靠語言模型無法解決世界上最棘手的問題 —— 機器人技術、疾病、科學發現等。真正的進步需要模型像人類一樣去體驗世界,并從錯誤中學習。而這種試錯過程在模擬環境中進行,比在現實世界中進行要快得多。世界模型為通用模擬提供了最為清晰的路徑。」
有意思的是,英偉達 CEO 黃仁勛還專門給 Runway CEO & 聯創 Cristóbal Valenzuela 發送了一條祝賀視頻。(畢竟看到這些依賴英偉達硬件的 AI 公司不斷進步,大概沒有人比老黃更開心了。)
![]()
![]()
下面來簡單看看 GWM-1 的三種變體。
GWM Worlds
GWM Worlds 是一個用于實時環境模擬的世界模型。
按官方的說法是:「你給模型提供一個靜態場景,它就能在你穿梭其中時,實時生成一個沉浸式、無限且可探索的空間,其中包含幾何體、光照和物理效果。你可以前往任何地點,無論是真實的還是想象的。你可以化身為任何角色,比如漫步城市的人、飛越雪山的無人機,或是穿梭于倉庫的機器人。」
聽起來很炫酷,下面是官方的宣傳視頻:
![]()
Runway 表示:讓這一切得以實現的關鍵在于一致性(consistency)
這很容易理解,當你探索一個環境時,你期望這個世界保持連貫一致。轉身時,你身后的事物依然存在。前后走動,你可以回到起點。
而 GWM Worlds 似乎在這方面表現不錯,其能在長時間的移動序列中保持這種空間連貫性。而且由于它是一個模擬系統,環境可以做出反應。你可以通過輸入指令來定義一個世界的物理規則,這個世界會做出準確的響應。
舉個例子,如果你指令 agent 騎自行車,它會穩穩地行駛在地面上;如果你指令其飛行,它就能在天空中自由導航。這對于交互式體驗、游戲、可探索的世界以及沉浸式環境都非常有用。
但對于訓練 agent 來說,它同樣重要。如果你想訓練一個 AI 系統在現實世界中進行導航和行動,你需要一個模擬器來對其進行訓練。GWM Worlds 可以充當這樣的沙盒,一個讓 agent 可以探索、犯錯并學習的環境。
整體而言,從描述上看 GWM Worlds 與其它類似的前沿世界模型差別不大,但實際表現如何還有待觀察。
GWM Robotics
GWM Robotics 是一個基于機器人數據訓練而成的世界模型,它能夠根據機器人動作生成預測視頻序列。
![]()
該模型支持反事實生成,可以探索不同的機器人軌跡與結果。其特性包括:
- 合成數據增強策略訓練:利用世界模型生成合成訓練數據,從多個維度擴充你現有的機器人數據集,包括新物體、任務指令以及環境變化。這些合成數據能在無需昂貴真實數據采集的前提下,顯著提升策略的泛化能力與魯棒性。
- 策略模擬評估:無需部署到真實機器人上,你可以直接在 Runway 的世界模型中測試策略模型(如 OpenVLA 或 OpenPi 這類 VLA 模型)。這種方式更快、可復現性更強、安全性也更高,同時仍能提供逼真的行為評估。
Runway 還發布了一個GWM-1 Robotics SDK。這是一款面向 Runway 機器人世界模型 API 的 Python SDK,可以基于機器人動作生成視頻。該 SDK 支持多視角視頻生成和長上下文序列,并提供了與現代機器人策略模型無縫銜接的接口設計。
![]()
GWM Avatars
GWM Avatars 是一個由音頻驅動的交互式視頻生成模型,可針對任意逼真寫實或風格化的角色模擬自然的人類動作和表情。
該模型能在說話和傾聽時呈現出逼真的面部表情、眼球運動、口型同步和手勢動作,并且在長時間對話過程中也不會出現質量下降的問題。
![]()
這個模型已經有著廣泛的應用潛力,官方列出了一些例子:
- 實時輔導與教育:讓個性化導師鮮活起來。這些反應靈敏的角色能夠講解概念、回應問題,并以自然的表情和手勢進行長時間對話,讓學習感覺就像一場真實的交流。
- 客戶支持與服務:通過讓交互有「臉」可尋,變革客戶支持體驗。一個反應靈敏、栩栩如生的角色,能傾聽、回應并引導用戶解決問題,它擁有真人客服般自然的表達和耐心,隨時待命,服務規模不受限。
- 培訓模擬:與能夠自然回應、保持眼神交流并實時做出反應的逼真角色一起練習艱難的對話、談判或高風險場景,在安全的環境中培養技能。
- 互動娛樂與游戲:讓游戲角色和數字演員鮮活起來。有會傾聽并回應的角色,有會根據你的選擇做出反應的主持人,還有能進行真實對話的伙伴。讓互動娛樂體驗宛如一場真誠的交流。
GWM Avatars 即將登陸 Runway 網頁產品和 Runway API,以便用戶集成到自己的產品和服務中。
![]()
結語
Runway 今天的更新標志著行業正在跨越一個關鍵的臨界點:從單純的「視頻生成」邁向了真正的「世界模擬」。
無論是 Gen-4.5 對物理細節的把控,還是 GWM-1 對環境與實體的構建,都表明 AI 不再僅僅是模仿像素的排列組合,而是開始理解物理世界的底層邏輯。
正如 Runway 所言,通往 AGI 的道路不能僅靠語言,AI 必須在一個可交互的模擬環境中去體驗和學習。英偉達 CEO 黃仁勛的驚喜現身,也隱喻了算力與算法的深度綁定。對于創作者而言,這扇大門已經打開:未來的視頻或許不再只是用來看的,更是用來交互的。
https://runwayml.com/
https://runwayml.com/research/introducing-runway-gen-4.5
https://runwayml.com/research/introducing-runway-gwm-1
https://x.com/c_valenzuelab/status/1999240966885003295
https://x.com/runwayml/status/1999190924069400583
文中視頻鏈接:https://mp.weixin.qq.com/s/XACKFq465dc8I8RFLzq9xg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.