網易首頁 > 網易號 > 正文申請入駐

港科大ORCA框架：視頻角色實現自主復雜任務執行

2025-12-25 21:26:15　來源: 科技行者

北京舉報

分享至

這項由香港科技大學何軒華、楊天宇和陳啟峰教授領導，聯合美團研究團隊共同完成的研究發表于2024年12月，論文編號為arXiv:2512.20615v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

當我們觀看一個視頻博主制作美食的過程時，會發現他們不僅能按照既定步驟操作，還能在遇到意外情況時靈活調整。比如發現鹽撒多了會及時補救，或者看到鍋子過熱會主動調小火候。這種能夠根據情況變化自主決策的能力，正是真實智能的體現。然而，目前的AI視頻生成技術雖然能夠制作出看起來很逼真的人物動畫，但這些虛擬角色就像木偶一樣，只能機械地執行預設動作，無法像真人那樣具備主觀能動性。

港科大的研究團隊決心改變這種狀況。他們開發了一套名為ORCA的革命性框架，首次讓視頻中的虛擬人物具備了真正的"大腦"——不僅能夠理解當前處境，還能制定長遠計劃，并在執行過程中不斷調整策略。這就像給一個演員裝上了真正會思考的大腦，讓他們能夠在拍攝過程中根據實際情況靈活應變，而不是單純背臺詞走過場。

研究團隊面臨的第一個核心挑戰可以用拍電影來類比。傳統的視頻生成就像拍一部完全按照劇本進行的電影，每個鏡頭都嚴格按照事先寫好的腳本執行。但問題是，AI生成的視頻具有很強的隨機性，就像每次拍攝同一個場景都可能出現不同的結果。演員可能沒有按預期拿起道具，或者道具的位置發生了變化。在這種情況下，如果后續場景還按照原計劃進行，整個故事就會變得荒唐可笑。

第二個挑戰在于如何讓虛擬角色理解復雜的指令并轉化為具體動作。就好比導演對演員說"表現出內心的糾結"，這樣抽象的指導需要演員理解并轉化為具體的表情、動作和姿態。同樣，AI系統需要將"泡一壺茶"這樣的高層次目標分解為"打開茶葉罐"、"用勺子舀茶葉"、"將茶葉放入茶壺"等一系列具體可執行的動作。

為了驗證他們的技術效果，研究團隊構建了一個名為L-IVA的全新測試平臺。這個平臺包含了100個不同的任務場景，覆蓋廚房烹飪、園藝種植、工坊制作、辦公室工作和直播表演五個生活領域。每個任務都需要虛擬角色與多個物品進行3到8步的復雜交互，就像現實生活中完成一項工作需要的步驟一樣。比如在廚房場景中，制作一頓簡餐可能需要從冰箱取食材、清洗蔬菜、切配、烹飪到裝盤等多個環節。

ORCA框架的設計靈感來自認知科學中的"內部世界模型"理論。簡單來說，就像人類大腦中有一個對外部世界的內在模擬器，幫助我們理解當前狀況、預測行動后果并制定合理計劃。ORCA為虛擬角色構建了類似的認知架構，讓它們能夠在復雜環境中進行自主決策。

這套框架采用了一種叫做"觀察-思考-行動-反思"的循環機制。虛擬角色首先觀察當前環境和自身狀態，然后思考下一步應該做什么，接著執行相應動作，最后檢查執行效果是否符合預期。如果發現問題，系統會及時糾正，避免錯誤積累影響后續操作。這就像一個經驗豐富的廚師在做菜時會不斷品嘗調味，確保每個步驟都朝著正確方向進行。

在系統內部，ORCA采用了雙系統架構，模擬人類大腦的快慢思維模式。系統二負責戰略規劃，就像我們深思熟慮制定計劃時的理性思維；系統一負責具體執行，將抽象計劃轉化為精確的操作指令，就像我們熟練完成日常動作時的直覺反應。這種分工讓虛擬角色既能進行長遠規劃，又能確保每個動作的執行精度。

研究團隊將ORCA與現有的幾種方法進行了詳細對比。開環規劃方法就像事先制定好完整計劃然后盲目執行，無法應對過程中的變化；反應式代理雖然能夠根據當前情況做出反應，但缺乏對整體狀況的把握，容易陷入重復動作的怪圈；而其他一些方法雖然具備世界模型，但假設環境是確定的，無法應對生成過程中的隨機性。

實驗結果顯示，ORCA在任務完成率上達到了71%的平均成功率，明顯超過其他方法。更重要的是，ORCA生成的視頻在物理合理性和動作連貫性方面表現優異。人類評估者在觀看這些視頻時，能夠清楚地看到虛擬角色按照合理邏輯完成復雜任務，而不是機械地重復預設動作。

當然，這項技術也面臨一些局限性。目前的視覺理解模型有時會遺漏短暫出現的視覺錯誤，導致系統接受了實際有問題的生成結果。另外，底層的視頻生成模型在處理精細操作時仍然存在控制精度不足的問題。不過研究團隊指出，隨著基礎模型能力的提升，ORCA框架的性能也會相應改善。

說到底，這項研究最重要的意義在于首次實現了真正具備主觀能動性的視頻角色生成。以往我們只能制作出外表逼真的虛擬人物，現在則可以創造出能夠自主思考和行動的智能角色。這不僅為虛擬主播、教育視頻和娛樂內容創作開辟了新的可能性，也為人工智能向更高層次智能形態發展邁出了重要一步。

歸根結底，ORCA框架證明了一個重要觀點：真正的人工智能不應該只是精美的動畫生成器，而應該具備像人類一樣的認知能力。當虛擬角色能夠理解環境、制定計劃、執行任務并從錯誤中學習時，它們才真正開始接近人類智能的本質。這項技術的出現，標志著我們正在從"制作逼真視頻"向"創造智能生命體"轉變，這個轉變將深刻影響從娛樂產業到教育培訓的各個領域。

Q&A

Q1：ORCA框架是什么？

A：ORCA是港科大團隊開發的視頻頭像智能框架，全稱為"在線推理與認知架構"。它能讓視頻中的虛擬人物像真人一樣具備主觀能動性，能夠自主觀察環境、制定計劃、執行任務并從錯誤中學習，而不是只能機械地重復預設動作。

Q2：L-IVA測試平臺包含哪些內容？

A：L-IVA是研究團隊構建的測試平臺，包含100個不同的任務場景，覆蓋廚房烹飪、園藝種植、工坊制作、辦公室工作和直播表演五個生活領域。每個任務需要虛擬角色與多個物品進行3到8步的復雜交互，用于驗證AI角色的自主完成復雜任務能力。

Q3：這項技術有什么實際應用價值？

A：這項技術能夠創造出真正會思考的虛擬角色，為虛擬主播、教育視頻制作和娛樂內容創作開辟新可能性。相比傳統只能按腳本行動的虛擬人物，ORCA生成的角色能夠根據實際情況靈活應變，大大提升虛擬角色的真實感和實用性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.