網易首頁 > 網易號 > 正文申請入駐

南加州大學讓AI學會"看懂手勢":從視頻中學習人與物體的精妙互動

2026-04-13 21:08:34　來源: 科技行者

北京舉報

分享至

在我們日常生活中，"倒水"這個簡單動作背后隱藏著怎樣的復雜性？當你拿起水瓶傾倒時，水流的方向、速度，杯子中液面的上升，這些看似理所當然的物理現象，對于人工智能來說卻是一個巨大的挑戰。最近，來自南加州大學、德國馬克斯普朗克智能系統研究所以及Waymo公司的研究團隊在2026年3月發表了一項突破性研究，他們開發出一個名為LOME（Learning Human-Object Manipulation with Action-Conditioned Egocentric World Model）的系統，這項研究以論文編號arXiv:2603.27449發表，首次實現了讓AI通過觀察人的手勢動作來生成逼真的人機交互視頻。

這項研究的重要意義在于，它不僅僅是生成視頻那么簡單，而是讓AI真正理解了人與物體交互時的因果關系——也就是說，AI現在能夠明白當人的手做出特定動作時，周圍的物體會如何相應地發生變化。這就像教會了AI觀察并理解一場精密的舞蹈，其中人的每一個手勢都會引發物體世界的連鎖反應。

研究團隊選擇從第一人稱視角（也就是我們平時看東西的角度）來訓練AI，這樣的設計更貼近人類的實際體驗。當你低頭看自己的手拿起杯子時，這就是第一人稱視角。通過這種方式，AI能夠更自然地學習人類的行為模式，就像一個學徒通過觀察師傅的手藝來掌握技能一樣。

傳統的物理仿真方法需要大量的手工建模和復雜設置，就像為每一個物體和動作都編寫詳細的使用說明書，這種方法不僅費時費力，還難以應對現實世界中物體形狀和環境的千變萬化。而LOME采用的視頻生成方法則更像是讓AI通過大量觀看"教學視頻"來學習，這種方法更靈活，適應性也更強。

具體來說，研究團隊讓AI學習三種不同的信息：首先是一張參考圖片，告訴AI當前的環境和物體情況；然后是一段文字描述，說明要進行什么樣的操作；最后是每一幀畫面中人體的精確動作信息，包括身體姿態和手部手勢。這三種信息結合起來，就像給AI提供了完整的"劇本"、"舞臺布景"和"演員動作指導"。

研究成果令人印象深刻。在動作跟隨準確性方面，LOME達到了66.85%的PCK@20分數（這是衡量手部位置預測準確性的指標），遠超過最佳基準方法的51.33%。在視頻質量評估中，LOME的FVD分數從基準方法的59.83降到了39.58（分數越低表示質量越好）。更重要的是，在用戶研究中，97%的參與者認為LOME在動作跟隨方面表現最佳，94%的參與者對其視覺質量給予了最高評價。

一、AI如何理解"倒水"的藝術

想要理解LOME的工作原理，我們可以把它比作學習一門精密的手工藝。當一個陶藝師在拉坯時，每一個手指的微小調整都會影響陶土的形狀變化。同樣，當我們進行日常的物體操作時，手的每一個動作都會產生相應的物理后果。

傳統的AI方法就像試圖通過閱讀理論書籍來學會陶藝，雖然能理解基本原理，但在實際操作時往往手忙腳亂。而LOME則采用了一種更直接的學習方式——通過觀察大師的實際操作來掌握技藝。

LOME的學習過程可以分為幾個關鍵步驟。首先，研究團隊收集了大量的第一人稱視角操作視頻，這些視頻就像是無數個"操作教程"。每個視頻都記錄了完整的操作過程：從初始狀態，到手部動作，再到最終結果。

在這個過程中，最具挑戰性的部分是讓AI理解動作和結果之間的因果關系。比如說，當你傾斜水瓶時，水會流出來；當你繼續傾斜時，水流會變快；當杯子接近裝滿時，你需要減緩傾斜速度以避免溢出。這種微妙的動作控制和物理反應的對應關系，正是LOME需要掌握的核心技能。

研究團隊發現，簡單地告訴AI"按照這個動作生成視頻"是不夠的。就像學習彈鋼琴不能只看樂譜，還需要聽到實際的音樂效果一樣，AI需要同時理解動作和環境的變化。因此，他們設計了一種"聯合學習"的方法，讓AI在學習生成視頻的同時，也學習理解動作的含義。

這種方法的巧妙之處在于，AI不再只是被動地執行預設的動作，而是能夠理解這些動作在特定環境中的意義和后果。當環境發生變化時，AI能夠相應地調整其行為，就像一個有經驗的廚師能夠根據不同的食材和工具調整自己的烹飪手法。

二、從"動作地圖"到"視頻生成"的技術革新

LOME的技術核心在于一個創新性的設計：將人體動作轉換成"動作地圖"。這個概念聽起來很抽象，但實際上可以用一個簡單的類比來理解。

設想你在學習太極拳，教練會在地面上畫出腳步移動的軌跡，用不同顏色標記手臂的運動路徑。這些地面標記就相當于"動作地圖"——它們將復雜的三維動作簡化成二維的視覺指引。

LOME做的事情本質上是相似的。它將人體的三維動作（包括身體各關節的位置和手指的精確位置）投影到二維平面上，形成一系列彩色的"骨架圖"。這些骨架圖就像是動作的"指紋"，每一幀畫面都對應一個獨特的動作狀態。

但是，將動作轉換成地圖只是第一步。真正的挑戰在于如何讓AI理解這些動作地圖與實際視頻內容之間的關系。這就像是教一個從未見過舞蹈的人通過觀看舞譜來想象舞蹈的實際效果。

研究團隊采用了一個被稱為"擴散變換器"的技術架構。這個名稱聽起來很技術化，但我們可以把它理解成一個特殊的"視頻生成工廠"。這個工廠的工作流程是這樣的：首先，它接收三種"原料"——參考圖片（告訴AI當前場景長什么樣）、文字描述（說明要做什么操作）、以及動作地圖序列（指示具體的動作步驟）。

然后，這個"工廠"開始工作。它不是簡單地將這些信息拼接在一起，而是通過一個復雜的"理解和重建"過程來生成視頻。這個過程就像一個經驗豐富的動畫師，能夠根據分鏡頭腳本和角色設定，繪制出連貫流暢的動畫序列。

LOME的另一個重要創新是"聯合建模"機制。傳統方法通常是先確定動作，再生成對應的視頻內容。但LOME采用了一種更聰明的方法：它同時考慮動作和環境的變化，讓兩者相互影響、相互約束。

這種方法的好處在于，AI生成的視頻不僅動作準確，而且物理效果也更加逼真。當AI看到"傾倒"的動作時，它不僅知道手應該如何移動，還知道液體應該如何流動，容器中的液面應該如何上升。這種整體性的理解使得生成的視頻具有了真正的物理可信度。

三、在真實世界中的表現：從實驗室到廚房

為了驗證LOME的實際效果，研究團隊設計了一系列對比實驗。他們選擇了幾個具有代表性的基準方法作為對照，包括CoSHAND（一個專門處理手部操作的圖像生成模型）、Wan-I2V-14B（一個通用的文本/圖像到視頻生成模型）以及Go-with-the-Flow（一個使用光流信息控制視頻生成的方法）。

實驗結果令人印象深刻。在一個"拿起黑色盒子"的測試中，其他方法要么生成的手部動作不準確，要么物體的反應不符合物理常識。而LOME生成的視頻中，手部動作精準，物體的移動軌跡自然，整個操作過程看起來就像真人操作的錄像。

更有趣的是"疊咖啡杯"的實驗。這個任務需要AI理解多個物體之間的相互關系，以及如何通過連續的動作來完成復雜的操作。其他方法在這個任務上幾乎完全失敗——要么咖啡杯沒有被正確抓取，要么疊放的過程看起來違反物理定律。而LOME不僅成功完成了整個疊放過程，生成的視頻中每個動作都自然流暢，符合人們的日常經驗。

最令人驚嘆的是"倒可樂"的實驗。在這個測試中，研究團隊給出的初始圖片顯示可樂瓶的瓶蓋是緊閉的，然后要求AI生成"將可樂倒入灰色杯子"的視頻。這個任務的難點在于，AI需要理解傾倒動作會產生液體流動的物理現象，并且液體的流動速度和方向應該與手的動作協調一致。

結果顯示，只有LOME成功生成了符合物理常識的視頻。在生成的視頻中，隨著瓶子傾斜角度的增加，可樂流出的速度逐漸加快，杯中的液面穩步上升，整個過程完全符合我們在現實中觀察到的液體流動規律。而其他方法要么無法生成連貫的倒液動作，要么生成的液體行為完全不符合物理常識。

研究團隊還在更具挑戰性的場景中測試了LOME的泛化能力。他們錄制了一個"打開冰箱門，取出食物放到桌子上"的視頻。這個場景的特殊之處在于，初始圖片中看不到冰箱里的物品，AI需要根據文字描述來"想象"這些物品的存在并生成合理的操作視頻。

令人驚訝的是，LOME不僅成功生成了打開冰箱門的動作，還在視頻中"創造"出了冰箱內的食物，并展示了將這些食物取出放置的完整過程。而且，研究團隊進行了三次獨立的生成實驗，每次生成的視頻都有所不同，體現出了良好的多樣性——有時取出的是牛奶，有時是水果，但每次的操作都合理可信。

這種泛化能力的展示說明，LOME不僅僅是在"復制"訓練數據中的操作，而是真正理解了操作的邏輯和物理規律，能夠在新的情境中創造性地應用這些知識。

四、技術細節：讓AI"身臨其境"地學習

LOME的成功離不開幾個關鍵技術創新的協同工作。首先是"第一人稱視角"的選擇。研究團隊發現，相比于第三人稱視角（就像旁觀者的角度看操作），第一人稱視角能讓AI更直接地理解動作和效果之間的關系。

這種選擇的巧妙之處在于，它模擬了人類學習新技能時的自然方式。當你學習系鞋帶時，你看的是自己的手和鞋子，而不是從旁邊觀察別人系鞋帶。同樣，讓AI從操作者的角度來觀察和學習，能夠建立更直接、更準確的動作-結果映射關系。

其次是"動作地圖"的設計。研究團隊沒有簡單地使用原始的關節位置數據，而是將三維的人體姿態投影到二維平面上，形成類似"火柴人"的骨架圖。這種轉換不僅降低了計算復雜度，還提高了動作表示的穩定性和可解釋性。

更重要的是，研究團隊在生成動作地圖時采用了"視野過濾"的策略。也就是說，只有在相機視野范圍內的身體部位才會被包含在動作地圖中。這個設計確保了動作地圖只包含AI在實際應用時能夠觀察到的信息，避免了"作弊"的可能性。

第三個創新是"聯合去噪"的訓練策略。傳統的條件生成方法通常是先確定條件（比如動作），然后生成對應的內容（比如視頻）。但LOME采用了一種更先進的方法：它同時對動作表示和視頻內容進行"去噪"處理，讓兩者在訓練過程中相互影響、相互約束。

這種方法的好處可以用一個類比來理解。傳統方法就像是先決定菜譜，然后按菜譜做菜。而LOME的方法更像是一個經驗豐富的廚師，在做菜的過程中根據食材的實際狀態來調整做法，同時也根據預期的口味來選擇食材，最終達到菜譜和成品的最佳匹配。

第四個技術亮點是"改進的引導機制"。在視頻生成過程中，AI需要同時考慮多種約束：文字描述的語義要求、動作序列的時序約束、以及物理規律的限制。研究團隊設計了一種特殊的"引導算法"，能夠平衡這些不同類型的約束，確保生成的視頻既符合指令要求，又保持物理可信度。

最后，研究團隊還引入了"相機姿態感知"的機制。由于訓練數據來自真實的第一人稱視角視頻，相機（或者說人的頭部）位置和朝向會隨著操作過程發生變化。LOME能夠理解這些相機運動，并在生成視頻時保持視角的一致性和自然性。

五、實驗數據背后的故事

研究團隊的實驗設計體現了嚴謹的科學態度和對實際應用的深刻理解。他們使用的主要數據集是EgoDex，這是一個包含33萬多個短視頻的大型第一人稱操作數據集，總時長約800小時。這些視頻都是使用蘋果Vision Pro設備錄制的，分辨率達到1920×1080，包含了詳細的三維人體姿態標注。

數據集的規模雖然龐大，但研究團隊并沒有簡單地"用數據砸問題"。他們對數據進行了精心的預處理和組織。比如，為了確保每個訓練樣本都包含完整的操作過程，他們設計了智能的時間重采樣策略。

具體來說，如果原始視頻過長，系統會均勻地選擇關鍵幀，但始終保留第一幀和最后一幀，確保操作的起始和結束狀態都得到保留。如果原始視頻過短，系統會采用"往返"的方式進行擴展——正向播放一遍后反向播放，直到達到需要的長度。這種處理方式既保證了數據的完整性，又避免了簡單重復帶來的學習偏差。

在評估指標的選擇上，研究團隊也展現了對問題本質的深刻理解。他們沒有僅僅關注生成視頻的視覺質量，而是重點評估了"動作跟隨準確性"。這個指標通過PCK@20分數來衡量，具體方法是使用MediaPipe工具檢測生成視頻中的手部關鍵點，然后計算這些關鍵點與真實視頻中對應位置的偏差。

PCK@20的含義是，如果預測的關鍵點位置與真實位置的距離在20個像素以內，就認為預測是正確的。LOME在這個指標上達到了66.85%的分數，相比最佳基準方法的51.33%有了顯著提升。這個15個百分點的改進看似不大，但在計算機視覺領域，這樣的提升往往代表著技術的重大突破。

更令人印象深刻的是用戶研究的結果。研究團隊邀請了30名參與者對10個測試樣本進行評估，要求他們從文本符合度、動作跟隨度、運動連續性和視覺質量四個方面為不同方法打分。結果顯示，97%的參與者認為LOME在動作跟隨方面表現最佳，94%的參與者對其視覺質量給予了最高評價。

這種壓倒性的用戶偏好說明，LOME生成的視頻不僅在客觀指標上表現優異，在主觀感受上也明顯優于其他方法。參與者反饋中最常見的評價是"看起來就像真人在操作"和"動作非常自然流暢"。

研究團隊還進行了細致的消融研究，分析了各個技術組件的貢獻。結果顯示，"聯合建模"機制是性能提升的最主要因素，去掉這個組件后，PCK@20分數下降了約4個百分點。相機適配器和時序連接方式的改進也都有明顯的正向作用，證明了技術設計的合理性。

六、挑戰與突破的邊界

盡管LOME取得了令人矚目的成果，但研究團隊也坦誠地討論了當前方法的局限性和面臨的挑戰。這種科學的誠實態度不僅體現了嚴謹的研究精神，也為未來的改進指明了方向。

首要的挑戰來自于數據質量的不完美。雖然EgoDex數據集規模龐大，但其中的三維人體姿態和相機位置估計并不是百分之百準確的。這就像是給學生提供了一本有錯誤的教科書，即使學習方法再好，也難免會受到錯誤信息的影響。

研究團隊發現，這些估計誤差會導致動作地圖與實際手部位置之間出現空間偏移。在一些測試樣本中，可以明顯看到生成視頻中的手部位置與動作地圖指示的位置存在幾個像素的差異。雖然這種差異在視覺上并不明顯，但會影響PCK@20等精確度指標的評估結果。

另一個顯著的局限性是在處理多物體復雜交互時的表現。研究團隊展示了一個"用勺子將冰塊從托盤舀到杯子里"的失敗案例。在這個場景中，LOME雖然能夠生成看起來合理的舀取動作，但生成的冰塊最終落入了托盤而不是杯子里。這說明當操作涉及多個物體的精確協調時，目前的技術還存在理解上的盲點。

這種多物體交互的挑戰反映了一個更深層的問題：雖然LOME能夠理解單個動作和單個物體的關系，但對于需要同時控制多個物體的復雜操作場景，它的理解仍然不夠精確。這就像是一個初學者能夠熟練地使用單手操作，但在需要雙手協調的任務中就會手忙腳亂。

技術架構方面的限制也值得關注。目前LOME需要提前獲得完整的動作序列才能生成視頻，這意味著它無法進行真正的"實時交互"。在實際應用中，用戶往往希望能夠逐步調整操作，根據當前狀態來決定下一步動作，而不是一開始就確定整個操作序列。

計算成本也是一個現實的考量。雖然LOME相比傳統的物理仿真方法已經大大降低了計算需求，但生成一個幾秒鐘的高質量視頻仍然需要相當的計算資源。這在一定程度上限制了其在消費級設備上的直接部署。

盡管存在這些挑戰，研究團隊對于技術的發展前景持樂觀態度。他們指出，當前的局限性主要是技術發展階段性的問題，而不是方法本身的根本缺陷。隨著數據質量的提升、算法的優化和計算能力的增強，這些問題都有望得到逐步解決。

特別值得期待的是，研究團隊提到了將引入"蒸餾技術"來實現自回歸推理的計劃。這種改進將使LOME能夠支持更加靈活的交互模式，用戶可以在操作過程中實時調整策略，而不需要事先規劃完整的動作序列。

七、未來應用的想象空間

LOME的成功不僅僅是一個技術突破，更重要的是它為多個領域的應用開辟了新的可能性。這些應用前景的廣闊程度甚至連研究團隊自己都可能沒有完全預見到。

在教育培訓領域，LOME可能會徹底改變技能傳授的方式。傳統的操作技能教學往往依賴于師傅帶徒弟的模式，學習效率受到時間、地點和師傅經驗的限制。而基于LOME的系統可以根據學習者的具體需求，生成個性化的操作演示視頻。

比如說，一個想學習咖啡拉花的初學者，可以通過文字描述自己想要達成的圖案效果，系統就能生成詳細的手部動作演示，展示奶泡應該如何傾倒，手腕應該如何轉動，時機應該如何把握。這種個性化的教學內容生成能力，將使優質的技能培訓資源變得更加普及和可獲得。

在虛擬現實和增強現實領域，LOME的價值更是不言而喻。目前的VR/AR應用在物體交互方面往往顯得僵硬和不自然，用戶很難獲得沉浸式的操作體驗。而LOME提供的逼真物理交互能力，可以讓虛擬環境中的操作體驗變得與現實世界無異。

用戶在虛擬廚房中切菜時，刀具與食材的接觸會產生真實的切割效果；在虛擬實驗室中操作儀器時，每個按鈕、旋鈕的響應都會符合物理直覺。這種改進將使VR/AR技術從"新奇的玩具"真正發展為"實用的工具"。

機器人技術是另一個極具潛力的應用方向。目前的機器人在執行復雜操作任務時往往需要大量的專門編程和調試，這極大地限制了機器人技術的普及。而LOME展示的"從演示中學習"的能力，為機器人技能獲取提供了一種全新的范式。

未來的家用機器人可能不再需要復雜的編程過程。用戶只需要演示一遍如何整理房間、如何準備簡單的食物，機器人就能通過觀察學會這些技能。更進一步，機器人還能根據環境的變化和用戶的具體需求，靈活調整自己的操作策略。

在內容創作領域，LOME也將產生深遠的影響。傳統的視頻制作往往需要大量的人力物力，特別是需要展示具體操作過程的教學視頻、產品演示視頻等。而LOME技術使得這類內容的自動化生成成為可能。

電商平臺可以根據產品特點自動生成使用演示視頻；在線教育平臺可以根據課程內容批量生成操作指導視頻；甚至個人用戶也可以通過簡單的文字描述來創建專業水準的演示內容。這將大大降低優質視頻內容的制作門檻和成本。

在醫療康復領域，LOME的應用前景也十分廣闊。康復訓練往往需要患者進行大量重復性的精細動作練習，而傳統的訓練方式枯燥且缺乏反饋。基于LOME的系統可以為每個患者生成個性化的訓練內容，根據患者的恢復進度動態調整訓練難度和內容。

患者可以在虛擬環境中進行各種日常操作的練習，系統會實時評估其動作的準確性和流暢性，并提供針對性的改進建議。這種智能化的康復訓練方式不僅能提高訓練效果，還能大大減輕醫護人員的工作負擔。

八、技術發展的更大圖景

LOME的成功實際上反映了人工智能發展的一個重要趨勢：從單一模態的智能向多模態融合智能的轉變。早期的AI系統往往專注于單一類型的任務——要么是圖像識別，要么是自然語言處理，要么是決策規劃。而LOME展示的是一種更加綜合的智能形態，它同時理解視覺信息、文本信息和動作信息，并能夠在這些不同模態之間建立有意義的聯系。

這種多模態融合能力的重要性不僅僅在于技術層面的突破，更在于它更接近人類智能的本質特征。人類在學習和執行操作任務時，本來就是同時調動視覺、聽覺、觸覺、運動感覺等多種感知通道的信息。LOME雖然還不能完全模擬這種復雜的感知融合過程，但它在視覺-動作-語言三個模態的整合上已經取得了令人鼓舞的進展。

從更宏觀的角度來看，LOME代表的是AI從"感知智能"向"交互智能"的重要跨越。傳統的計算機視覺系統主要專注于理解"世界是什么樣的"，而LOME關心的是"如何與世界互動"。這種轉變的意義是深遠的，因為真正的智能不僅要能觀察和理解世界，更要能夠主動地影響和改變世界。

這種交互智能的發展還體現了AI研究中一個重要的哲學轉向：從追求抽象的"智能"向關注具體的"實體智能"的轉變。LOME強調的第一人稱視角學習，實際上是在強調智能不是脫離身體的純粹思維過程，而是深深植根于身體體驗和環境互動的具體過程。

這種觀點與認知科學中的"具身認知"理論高度吻合，該理論認為人類的認知過程離不開身體的感知和運動經驗。LOME的成功某種程度上驗證了這種理論觀點在AI系統中的有效性，為構建更加自然和智能的人工智能系統提供了重要啟示。

值得注意的是，LOME的技術架構還體現了當前AI發展中的另一個重要趨勢：基礎模型的應用。LOME并沒有從零開始構建整個系統，而是在預訓練的大規模視頻生成模型基礎上進行了專門的微調和改進。這種做法不僅提高了開發效率，還使得系統能夠繼承預訓練模型中蘊含的豐富知識和能力。

這種基于基礎模型的發展策略正在成為AI各個領域的主流趨勢。它反映了AI研究從"專門系統"向"通用系統"發展的大方向——未來的AI系統可能不再是針對特定任務從頭設計的專用工具，而是在通用智能基礎上針對具體應用進行定制的系統。

LOME的成功還為AI安全和可解釋性研究提供了有價值的案例。由于系統的行為是基于對人類操作視頻的學習，其生成的內容天然地符合人類的行為模式和物理直覺。這種設計在一定程度上降低了AI系統產生異常或危險行為的可能性。

同時，動作地圖的可視化表示也為理解和解釋AI的決策過程提供了直觀的手段。用戶可以通過觀察動作地圖來理解AI為什么會生成特定的操作序列，這種透明性對于建立用戶對AI系統的信任具有重要意義。

從產業發展的角度來看，LOME代表的技術方向具有很強的商業化潛力。與那些需要大量計算資源或專門硬件的AI技術不同，LOME的應用場景廣泛，技術門檻相對較低，很容易與現有的各種產品和服務結合。

這種技術特性使得LOME不太可能成為少數大公司的專利技術，而更可能推動整個行業的普遍性升級。從教育軟件到游戲娛樂，從工業培訓到消費電子，各行各業都能從這種人機交互技術中找到應用價值。

最終，LOME的意義可能不僅僅在于它解決了什么具體問題，而在于它為我們展示了AI技術發展的一種新可能性——讓AI不再是冷冰冰的計算工具，而是能夠理解和模擬人類行為的智能伙伴。這種技術發展方向，為實現真正意義上的人機協作奠定了重要基礎。

LOME讓我們看到，未來的AI系統將不僅僅是信息處理的工具，更是能夠參與到人類日常生活和工作中的智能助手。它們能夠理解我們的行為意圖，學習我們的操作技巧，甚至在某些方面超越我們的能力局限。這樣的技術發展前景，既充滿了機遇，也提出了新的挑戰，值得我們持續關注和深入研究。

說到底，LOME的研究成果告訴我們，讓機器理解人類的行為并不是一個遙不可及的夢想，而是一個正在逐步實現的現實。隨著技術的不斷完善和應用的不斷拓展，我們有理由相信，未來的人機交互將變得更加自然、直觀和高效。對于那些希望深入了解這一技術細節的讀者，可以通過論文編號arXiv:2603.27449查詢完整的研究報告，進一步探索這個激動人心的技術前沿。

Q&A

Q1：LOME是什么技術？

A：LOME是由南加州大學等機構開發的AI系統，它能夠觀看人類操作視頻并學會生成逼真的人機交互場面。就像教會了AI觀察人的手勢動作，然后能夠預測并展示這些動作會產生什么樣的物理效果，比如倒水時液體如何流動等。

Q2：LOME跟普通的視頻生成AI有什么區別？

A：普通視頻生成AI主要根據文字描述創建視頻，而LOME除了文字描述外，還能理解具體的人體動作指令，并確保生成的視頻中物體的反應符合物理規律。比如當它看到"傾倒"的手勢時，不僅知道手該怎么動，還知道液體應該怎樣流出來。

Q3：LOME技術有什么實際用途？

A：LOME可以用于VR/AR體驗、機器人培訓、在線教育、康復訓練等多個領域。比如可以自動生成操作教學視頻，讓VR游戲中的物理交互更真實，或者幫助機器人通過觀看演示來學會新的操作技能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.