<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北航、東京大學填補AI「語義鴻溝」,如何找到「狀態」錨點?

      0
      分享至



      摘要 / 導語:在具身智能與視頻理解飛速發展的今天,如何讓 AI 真正 “看懂” 復雜的操作步驟?北京航空航天大學陸峰教授團隊聯合東京大學,提出視頻理解新框架。該工作引入了 “狀態(State)” 作為視覺錨點,解決了抽象文本指令與具象視頻之間的對齊難題,已被人工智能頂級會議 AAAI 2026 接收。

      在當今的視頻理解和具身智能領域,教 AI 理解 “做菜” 或 “修理電器” 等程序性活動具有重要意義。然而,當這一需求遭遇現有的圖文對齊范式時,一個難以忽視的「語義鴻溝」(Semantic Gap)橫亙在研究者面前。

      現有的程序性視頻學習方法面臨數據困境:要么依賴極其昂貴的時間密集型標注,難以擴展;要么利用 WikiHow 等外部知識庫進行弱監督學習,將視頻幀與 “任務(Task)” 或 “步驟(Step)” 的文本描述強行對齊。

      但弱監督的方式仍然存在優化空間:抽象的語言描述與具體的視覺像素之間存在斷層。當文本指令是 “切橙子”(Cut oranges)時,視頻中呈現的是橙子從完整狀態到果肉外露的連續視覺形態變化,而非明確的動作過程。二者之間的不匹配導致模型難以準確識別和理解視頻所表達的實際過程。

      為了解決這一問題,北京航空航天大學陸峰教授團隊,聯合東京大學黃逸飛博士推出了 TSS(Task-Step-State)框架。其核心洞見在于重構了過程性知識的層級結構:引入「狀態」(State)這一視覺接地層,并提出了一種漸進式 “層級展開”(Hierarchy Unfolding)的漸進式預訓練策略。



      • 標題:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
      • 作者:趙靜晗,黃逸飛,陸峰
      • 機構:北京航空航天大學,東京大學
      • 論文鏈接:https://arxiv.org/pdf/2511.20073
      • 代碼倉庫:https://github.com/zhao-jinghan/TSS-unfolding

      在傳統的弱監督訓練中,模型試圖直接建立視覺內容與 “任務” 或 “步驟” 描述的聯系。但在視頻中,“步驟” 往往是一個粗糙且抽象的動作過程,而視覺傳感器捕捉到的是物體視覺狀態的連續改變。這種「信息錯位」導致了現有方法的局限性。

      TSS 核心架構:以「狀態」為錨點,層層遞進

      TSS 框架創新性地提出了一種三層知識結構,巧妙地利用 “狀態” 填補了語義鴻溝。



      傳統的 “任務 - 步驟” 二元結構過于抽象。TSS 利用大語言模型(LLM)生成了第三層語義 —— 狀態(State)。 TSS 將每個步驟擴展為一組狀態快照(Snapshot):

      • 初始狀態:橙子是完整的,橙子和刀沒有接觸。
      • 中間狀態:刀切入橙皮,橙子不再完整。
      • 結束狀態:橙子果肉外露,變為切片。

      我們可以把這理解為給 AI 配了一副 “顯微鏡”: 原本 AI 只能聽到模糊的指令 “切它”,現在 AI 能通過 TSS 框架清晰地看到物體屬性的具體變化。這些狀態描述是視覺可感知的(Visually-grounded),能夠直接作為錨點,將抽象的步驟鎖死在具體的視頻幀上。



      擁有了三層結構后,如何訓練模型?TSS 摒棄了粗暴的 “混合訓練”,提出了一種符合認知規律的漸進式 “層級展開”(Hierarchy Unfolding)策略。

      這不僅是一個訓練技巧,更是一種 “分析 - 綜合” 的哲學: 研究團隊設計了一條 Task → Step → State → Step → Task 的 U 型學習路徑。

      • 向下扎根(Analysis): 從高層任務出發,一路向下學習,直到模型能精準識別最底層的 “狀態”。這迫使模型將注意力集中在具體的視覺證據上。
      • 向上反哺(Synthesis): 在掌握了扎實的視覺細節后,模型帶著 “狀態” 的知識回歸高層,重新審視 “步驟” 和 “任務”。

      這種雙向流動良好的利用了 TSS 框架內在的邏輯聯系,其中步驟是關鍵狀態的轉變,而一系列關鍵狀態則構成了總體的任務。

      工程實現:基于大模型的「智能增強」

      • 自動化生成:核心的 “狀態” 描述無需人工逐一標注,而是通過 GPT 等大模型基于現有 WikiHow 文本數據推理生成,極大降低了數據成本。
      • 輕量化微調:訓練輕量級 Adapter 模塊,作為預訓練階段的高效擴展組件,提升模型表征能力。

      實驗驗證:全面超越 SOTA

      研究團隊在 COIN 和 CrossTask 數據集上進行了下游任務(任務識別,步驟識別,步驟預測)的測試。

      實驗結果表明:

      • 方法優越性: 該方法在 COIN 和 CrossTask 的三大下游任務上的性能均超越了基線模型(表 3)。
      • 核心機制有效性:引入 “狀態” 層作為視覺錨點,并配合漸進式的預訓練策略,是提升模型程序性視頻理解能力的關鍵驅動力(表 2)。





      為了探究 TSS 層級架構中最優的知識學習順序,并驗證底層 “狀態” 信息能否反向輔助高層語義的理解,作者設計了一組對比實驗(表 2)。

      其中,各 Path 代表了不同的訓練路徑:

      • Path 1:Task only
      • Path 2:Task→Step
      • Path 3:Task→Step→State
      • Path 4:Task→Step→State→Task
      • Path 5:Task→Step→State→Step
      • Path 6:Task→Step→State→Task→Step

      Task→Step→State 是自上而下的過程,而 Path-5 和 Path-6 構建了分析 - 綜合的閉環,在學習底層狀態后,繼續向上回溯。

      如表 2 所示,對比 Path-2 (Task→Step) 和 Path-5 (Task→Step→State→Step),后者在各項指標上均有顯著提升。這證明了讓模型學習 “狀態”(即物體在動作前后的具體變化),可以反哺模型對 “步驟” 的理解,使特征表示更具視覺落地性(Visually-grounded)。

      同時,Mix-Train(聯合訓練)的效果介于 Path-1 和 Path-2 之間(表 2),弱于該方法提出的 Path-5。這證明了 TSS 框架中的層級結構(任務 - 步驟 - 狀態)存在內在邏輯,通過漸進式引導,模型能更好地建立各層級間的關聯,而不是將其視為黑盒數據。

      總結

      在 AI Agent 需要執行復雜操作的背景下,僅僅 “聽懂指令” 是不夠的,必須 “看懂后果”。TSS 證明了,通過顯式地建模物體狀態變化,我們可以有效地彌合自然語言與物理世界之間的鴻溝。

      這種 “以狀態為錨點,自底向上構建理解” 的思路,為未來構建既懂高層規劃、又能精準執行細節的智能系統提供了新的探索思路。目前,該論文代碼已開源,歡迎社區關注與試用。

      作者介紹

      • 趙靜晗:北京航空航天大學碩士研究生,研究方向為視頻理解等。
      • 黃逸飛:東京大學博士后,研究方向為第一視角視頻、眼動、具身智能等。
      • 陸峰:北京航空航天大學教授,研究方向為眼動、第一視角視頻、共身智能等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      央視《老舅》被觀眾要求下架,理由:劇情太假,掛羊頭賣狗肉!

      央視《老舅》被觀眾要求下架,理由:劇情太假,掛羊頭賣狗肉!

      甜檸聊史
      2025-12-17 09:23:55
      女子借款13萬卻要還近1300萬,名下近千萬房產被迫抵押!成都警方披露→

      女子借款13萬卻要還近1300萬,名下近千萬房產被迫抵押!成都警方披露→

      封面新聞
      2025-12-18 16:17:10
      臺軍派F-16“偷拍”福建艦

      臺軍派F-16“偷拍”福建艦

      揚子晚報
      2025-12-18 12:35:36
      張雨綺換臉成功!說不出來哪里變了,好像又都變了

      張雨綺換臉成功!說不出來哪里變了,好像又都變了

      爆角追蹤
      2025-12-18 16:05:56
      全國統一判:“爛尾樓”購房者可解除合同,不再支付按揭貸款,由開發商兜底!

      全國統一判:“爛尾樓”購房者可解除合同,不再支付按揭貸款,由開發商兜底!

      微法官
      2025-10-15 08:06:34
      轟炸機抵近東京,美國拒表態,日本承認波茨坦公告,求中國一件事

      轟炸機抵近東京,美國拒表態,日本承認波茨坦公告,求中國一件事

      梁訊
      2025-12-18 10:38:01
      回國后我才敢說:越南是我去過的所有國家中,最被低估的

      回國后我才敢說:越南是我去過的所有國家中,最被低估的

      李健政觀察
      2025-12-18 09:49:21
      海南封關之后當地網友吐槽物價變貴,油條7塊菠菜32一斤

      海南封關之后當地網友吐槽物價變貴,油條7塊菠菜32一斤

      映射生活的身影
      2025-12-18 22:03:06
      鹽城市紀委監委通報,朱照偉任上被查

      鹽城市紀委監委通報,朱照偉任上被查

      揚子晚報
      2025-12-18 18:25:12
      果不其然,柬埔寨變天了!總理洪瑪奈突然宣布加大與美國全面合作

      果不其然,柬埔寨變天了!總理洪瑪奈突然宣布加大與美國全面合作

      青途歷史
      2025-12-17 21:45:50
      吳京認祖多爾袞?原諒我不厚道地笑了,這文化水平實在笑死個人啊

      吳京認祖多爾袞?原諒我不厚道地笑了,這文化水平實在笑死個人啊

      寒士之言本尊
      2025-12-18 12:10:25
      “南京博物院藏仇英名作現身拍賣市場”追蹤

      “南京博物院藏仇英名作現身拍賣市場”追蹤

      新華社
      2025-12-19 00:20:41
      國企也開始爆雷了!

      國企也開始爆雷了!

      微微熱評
      2025-12-19 00:35:12
      柬埔寨GDP的40%—60%來源電詐 幕后以華人資本集團為主

      柬埔寨GDP的40%—60%來源電詐 幕后以華人資本集團為主

      原某報記者
      2025-12-18 10:17:38
      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      泰軍炸掉詐騙園區、器官移植中心,洪森為何氣急敗壞?

      胡嚴亂語
      2025-12-16 20:33:51
      不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

      不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

      火山詩話
      2025-12-18 18:47:29
      英媒:普京對歐洲領導人發出尖銳批評

      英媒:普京對歐洲領導人發出尖銳批評

      參考消息
      2025-12-18 21:45:27
      高標準梯田(農田)荒廢的背后 完全不切實際一場鬧劇

      高標準梯田(農田)荒廢的背后 完全不切實際一場鬧劇

      原某報記者
      2025-12-17 14:31:27
      河南一地學校禁燃油車接送學生,家長怒斥“荒唐至極”

      河南一地學校禁燃油車接送學生,家長怒斥“荒唐至極”

      西門老爹
      2025-12-18 14:10:57
      絲芭傳媒再發文:要求鞠婧祎方立刻停止侵權抹黑,將就其和關聯人涂某某等涉嫌嚴重經濟犯罪行為,向相關監管機構實名舉報

      絲芭傳媒再發文:要求鞠婧祎方立刻停止侵權抹黑,將就其和關聯人涂某某等涉嫌嚴重經濟犯罪行為,向相關監管機構實名舉報

      極目新聞
      2025-12-18 11:17:51
      2025-12-19 02:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142513關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      手機
      游戲
      本地
      時尚
      公開課

      手機要聞

      iPhone Air2再次被確認:升級雙攝+降價,只為存活下來!

      《巫火》仍堅持是單人游戲 沒有升級到虛幻5計劃

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      陳妍希這婚,離晚了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文在线最新版天堂| 丝袜精品字幕| 痉挛高潮喷水av无码免费 | 少妇口爆| 一级片免费网站| 人妻互换一二三区激情视频 | 国产精品美女久久久免费| 国产色视频网站免费| 尼玛县| 亚洲日韩字幕| 免费激情网址| 国产成人av在线影院| 午夜天堂一区人妻| 久久久精品波多野结衣av| 亚洲精品成人av久久久| 日本一卡2卡3卡四卡精品网站| 久久不见久久见免费影院视频| 暖暖 在线 日本 免费 中文| 亚洲精品乱码久久久久久按摩高清| 亚洲成av人片在www鸭子 | 亚洲欧洲美洲在线观看| 新巴尔虎右旗| 久久久无码专区| 影音先锋一区二区| 国产最新AV在线播放不卡| 91九色视频| 欧美性猛交xxxx乱大交极品| 亚洲无人区一区二区三区| 石首市| 国产浓毛大泬熟妇视频| 影音先锋成人网站| 国产激情视频在线观看首页 | 亚洲性无码一区二区三区| 精品无码专区久久久水蜜桃| 丰满人妻中文字幕无码| 国产成人无码网站m3u8| 五月丁香中文字幕| 日韩亚洲一区二区精品成人| 高潮喷水抽搐无码免费| 日本熟妇浓毛hdsex| 黄页网址大全免费观看|