![]()
來源:學術頭條
李飛飛&李曼玲團隊又出「具身智能」新作——基準測試 ENACT,旨在解決視覺-語言模型(VLM)具身認知涌現程度難以量化的問題。
![]()
據論文描述,通過將具身認知評估轉化為視覺問答(VQA)形式的自我中心交互世界建模任務,ENACT 揭示了 GPT-5、GLM-4.5V 等前沿模型與人類之間的能力差距,且差距隨交互時長增加而擴大。
![]()
李曼玲現為美國西北大學計算機科學系助理教授,其在斯坦福大學任博士后研究員的導師為李飛飛和吳佳俊(斯坦福大學助理教授)。
1.研究背景
![]()
具身認知理論強調,智能來源于與世界的交互,而不是從被動觀察中獲得。當前 VLM 主要以“去具身化”的方式訓練,但它們已經展現出一定的智能潛力,那該如何評估這些模型在多大程度上呈現出具身認知呢?
![]()
2.研究方法
ENACT 把世界建模構建在部分可觀測馬爾可夫決策過程(POMDP)之上,將任務形式化為在智能體執行動作的條件下,自我中心視覺序列如何隨時間演化,即:讓模型專注理解在自己的作用下第一人稱視覺中的世界會如何變化。
![]()
ENACT 聚焦兩個任務:
1?? 正向世界建模:給定動作,對被打亂的觀察序列進行重新排序。
2?? 逆向世界建模:給定觀察,對被打亂的動作序列進行重新排序。
這些任務體量不大,但想答對需要模型具備具身認知的核心能力,包括識別環境可供性、理解動作與結果的因果關系等。在部分可觀測環境中,也考驗模型的互動推理和長時記憶。
![]()
3.實驗結果
研究人員用任務準確率(序列完全正確)與對偶準確率(相鄰對是否正確)對模型的表現進行評估。
![]()
![]()
結果表明,ENACT 對當前 VLM 非常有挑戰性,模型表現遠落后于人類( )。
此外,當前 VLM 在逆向任務上的表現始終優于正向任務,并呈現出“類人偏見”,例如偏好右手動作、在攝像機內參或視角偏離人類視覺時性能下降。
![]()
研究人員指出,ENACT 提供了可擴展且具有洞察力的工具,為實現更真實具身性的人工智能指明方向。
但實驗仍存在一些局限性,如任務設計不全面;評估成本高,消融實驗只覆蓋部分模型和數據等。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.