![]()
世界模型山雨欲來,Sora 還在牌桌上。
作者丨梁丙鑒
編輯丨馬曉寧
繼 3 月 24 日 Sora 業務線關停后,OpenAI 華人研究員王若宸發了一條朋友圈,公開了此舉的最新內幕:Sora 團隊的終極目標一直是通用機器人,此番調整的核心原因是視頻生成和具身模型的研究路線越發分化,難以兼顧。業務線關停之外,對 Sora 研究團隊的組織架構無任何影響。
![]()
王若宸為 Sora 團隊華人研究員。公開信息顯示,2024 年其博士畢業于美國加州大學洛杉磯分校,取得計算機科學專業博士學位,研究方向為自動化機器學習方法。2025 年 2 月,王若宸加入 OpenAI 擔任研究員,從事多模態方向研究。
在 LinkedIn 平臺上,他對這段工作經歷的介紹是,“I trained the latest ChatGPT Voice- What's next?:)”
此前 OpenAI 已有表態,Sora 團隊接下來的任務是機器人方向研究。OpenAI 發言人 Kayla Wood 在接受媒體采訪時表示,Sora 團隊“將繼續專注于世界模擬研究,以促成機器人的進化,使其幫助人們解決現實世界中的物理任務。”
王若宸側面印證了這一口徑。在落地成為具身智能核心命題的當下,此舉無疑意味著 OpenAI 在這一方向進一步完成了研究力量的收縮整合,競爭烈度即將進入全新階段。而在 OpenAI 此次調整后重新審視 Sora 團隊的戰略地位,外界此前是否存在低估,值得重新考量。
01
王若宸的朋友圈,透露四點細節
第一,Sora 團隊的定位一直是通用機器人研究,這是 Bill(William Peebles)和 Aditya(Aditya Ramesh)的共識。二人同為 Sora 團隊三大負責人之一,前者是 Sora 核心創新的 DiT 模型作者,后者為 OpenAI 元老級成員,主導了三代 DALL-E(DALL-E 1/2/3)的研究。
第二,由于機器人的商業化周期更長,Sora 團隊將視頻生成作為類似中間產物的商業化成果,此前的產品探索也聚焦于這一方向。
第三,自 2025 年底開始,Sora 團隊發現作為終極愿景的機器人,和視頻生成這兩條研究路線分化的部分增加。出于保持短小精悍的團隊氛圍的目的,Sora 團隊一直在討論如何重新定義優先級。
王若宸稱,包括自己在內的大部分研究員都“傾向梭哈機器人,因為做讓人成癮的視頻實在不符合我們的價值觀。”
第四,Sora 負責人 Aditya Ramesh 去年整合了 OpenAI 內部其余進行機器人產品探索的團隊,納入 Sora 團隊內部,新團隊更名為 WorldSim。
此次調整僅涉及到視頻生成產品的關停,對研究團隊不會造成任何變化,也不存在成員并入 WorldSim 團隊的情況,“本來就是一個 org。”
王若宸表示,Sora 業務線的突然關停并非團隊本意,但非常贊同 OpenAI 最近整體的戰略聚焦。
02
世界模型山雨欲來
此前 Sora 團隊突然發布告別聲明,Sam Altman 內部信隨后流出,信中通知 Sora 視頻平臺將全面停運,此時距離 Sora 2 發布僅僅過去半年。加之 Sora 初次發布時曾因超群的物理效果和場景還原能力一鳴驚人,Sam Altman 親自在 X 上為之站臺,展示效果,導致 Sora 長期被視為 OpenAI 在視頻生成賽道比肩 ChatGPT 的戰略產品。
高開低走的命運,引發外界眾多猜測。有報道稱 OpenAI 此舉是沖擊 IPO 前的戰略調整。
OpenAI CEO Fidji Simo 近期曾對員工解釋,關停 Sora 是 OpenAI 從"分散的副業"轉向核心生產力工具的戰略決策。而 OpenAI CFO Sarah Friar 則在 24 日接受媒體采訪時稱,OpenAI 需要“準備好成為一家上市公司”,或暗示 Sora 的關停與 IPO 計劃有關。這進一步引發了關于視頻生成模型算力成本承壓及商業模式的討論。
但根據王若宸透露的最新消息,為世界模型研發整合資源的因素,在此次業務線調整中的影響同樣舉足輕重。
為什么世界模型如此重要?
具身智能的落地應用,面臨著真實世界交互數據匱乏,以及由對物理世界缺乏深層次理解和預判能力,導致的跨場景泛化問題。而世界模型在合成數據和閉環仿真方面的應用將有效緩解數據壓力,統一的物理規律理解能力則能讓機器人在陌生環境中真正擁有物理直覺,正是為解決上述問題而生。
Sora 在發布之初就曾因具備初步的物理世界常識和時間邏輯被譽為視頻生成的 “GPT時刻”,在一眾視頻生成模型中,也以物理真實性見長。在技術特征上,這正是與世界模型的契合之處。如果 Sora 真的從 Day 1 就并非視頻生成團隊,而是為世界模型進行技術積累,那么最新成果相當值得期待。
值得一提的是,相較于海外廠商以 Sora 為代表的“世界模擬器”路線,國內的視頻模型廠商,如快手、字節、生數科技等,定位則更接近于內容引擎。
如可靈的 MotionControl 功能可精準控制物體移動軌跡,字節 Seedance 主打多鏡頭敘事與音畫同步,生數科技的Vidu 3 主打電影級敘事,采用 U-Vit 架構在單卡級推理上保障畫面連貫性。三者的共同點在于以生成結果的可控性見長,而非對物理規律的完美復現。
技術路線的選擇見仁見智。在大廠占據內容平臺高地的背景下,內容引擎可以更契合地融入自家生態,兩者共同完成從內容生成到分發的閉環,同時生成結果更高的可控性進一步優化了 AI 短劇、漫劇的成本結構,商業化由此反哺模型迭代。國內模型廠商在視頻生成賽道,構建了難以撼動的生態壁壘。
但是在世界模型的競爭中,這一優勢不復成立。
內容引擎的生態壁壘,對具身智能而言是否會成為技術債務?新一輪的競爭中,又會是哪家模型廠商擔綱?值得拭目以待。
可以確定的是,具身智能賽道火熱的市場預期,最終要在落地場景中兌現,此前頻現的巨額融資已經累積了巨大的商業化壓力。而 Sora 在視頻生成賽道激流勇退的另一面,是為具身智能的又一次添柴加炭。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.