<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      「聽覺」引導「視覺」,OmniAgent開啟全模態主動感知新范式

      0
      分享至



      針對端到端全模態大模型(OmniLLMs)在跨模態對齊和細粒度理解上的痛點,浙江大學、西湖大學、螞蟻集團聯合提出 OmniAgent。這是一種基于「音頻引導」的主動感知 Agent,通過「思考 - 行動 - 觀察 - 反思」閉環,實現了從被動響應到主動探詢的范式轉變。

      在 Daily-Omni 等多個基準測試中,其準確率超越 Gemini 2.5-Flash 和 Qwen3-Omni 等開閉源模型。



      • 論文地址:https://arxiv.org/pdf/2512.23646
      • 論文主頁:https://kd-tao.github.io/OmniAgent
      • 發起實驗室ENCODE LAB:https://westlake-encode-lab.github.io/



      背景與痛點



      1. 端到端全模態模型雖然實現了視聽統一,但往往受限于高昂的訓練成本和困難的跨模態特征對齊,導致在細粒度跨模態理解上表現不佳;
      2. 基于固定 Workflow 的智能體依賴人為設定僵化的流程,缺乏細粒度和靈活性,無法根據問題自主的進行規劃與信息獲??;
      3. Caption-based 視頻智能體需要在分析問題之前,先針對整個視頻構建幀 caption 數據庫,隨后基于視頻字幕數據庫來理解內容,但這種方法計算成本高,難以捕捉細節的跨模態信息。

      相比之下,OmniAgent 引入了一種全新的主動感知推理范式。通過在迭代反思循環中策略性地調度視頻與音頻理解能力,該方法有效攻克了跨模態對齊的難題,從而實現了對視聽內容的細粒度理解。

      方法論



      OmniAgent 摒棄了固定的工作流,采用了「思考 - 行動 - 觀察 - 反思」閉環機制 。

      1.思考:OmniAgent 會根據問題進行分析,自主決定「聽」還是「看」。

      2.行動:根據計劃,OmniAgent 會從構建的多模態工具中選取合適的工具進行調用:

      1. 事件工具:利用音頻能夠高效捕捉全局上下文的特性,首創音頻引導事件定位,快速鎖定關鍵時間窗口,避免對長視頻進行無效的視覺掃描 。
      2. 視頻工具:包含粗粒度的全局視頻問答,以及在特定時間內基于更高幀率進行分析的片段問答工具。
      3. 音頻工具:涵蓋音頻全局描述、細粒度問答,以及支持精確時間戳的語音轉錄 (ASR)。

      3.觀察與反思機制:智能體接受工具結果,評估目前已有的證據能否正確的回答問題,并且結合之前在多步推理中進行跨模態一致性檢查,確保視聽證據互證,解決幻覺與對齊問題。

      效果如何?

      OmniAgent 在三個主流視聽理解基準測試中均取得了 SOTA 成績,顯著優于現有的開源及閉源模型:

      1.Daily-Omni Benchmark:準確率達到 82.71%,超越 Gemini 2.5-Flash (72.7%) 和 Qwen3-Omni-30B (72.08%),提升幅度超 10% 。



      2.OmniVideoBench:在長視頻理解任務中,準確率達 59.1%,大幅領先 Qwen3-Omni-30B (38.4%) 。



      3.WorldSense:OmniAgent 也保持了領先的準確度。



      未來愿景

      1. OmniAgent 的設計理念有很高的擴展性,能夠繼續結合其他模態的工具;
      2. OmniAgent 能夠幫助生成高質量的 COTT 數據,用來構建可以自我調用工具的下一代智能體全模態模型。

      總的來看,OmniAgent 證明了在全模態理解任務中,音頻引導的的主動感知策略是解決跨模態對齊困難、提升細粒度推理能力的有效路徑。該工作為未來的全模態 Agent 算法設計提供了新的范式參考。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      阿龍美食記
      2026-02-23 17:00:18
      巴拿馬總統慌了,他才發現:強吞中國18億資產,居然是自尋死路

      巴拿馬總統慌了,他才發現:強吞中國18億資產,居然是自尋死路

      起喜電影
      2026-02-26 18:34:12
      日本動物園請人扮演大熊貓吸引游客

      日本動物園請人扮演大熊貓吸引游客

      界面新聞
      2026-02-26 18:20:03
      2015年,山東小伙被吉爾吉斯坦包工頭強行安排與其小12歲女兒成婚

      2015年,山東小伙被吉爾吉斯坦包工頭強行安排與其小12歲女兒成婚

      南權先生
      2026-02-26 15:40:57
      升破6.85!人民幣創兩年新高背后,外資正在瘋狂抄底你的“命脈”

      升破6.85!人民幣創兩年新高背后,外資正在瘋狂抄底你的“命脈”

      王二哥老搞笑
      2026-02-26 14:08:07
      全國統一執行,3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

      全國統一執行,3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

      墨蘭史書
      2026-02-25 23:12:05
      2-1逆轉!歐冠淘汰賽:超巨鎖定勝局 13.6億豪門雙殺死敵復仇晉級

      2-1逆轉!歐冠淘汰賽:超巨鎖定勝局 13.6億豪門雙殺死敵復仇晉級

      狍子歪解體壇
      2026-02-26 06:06:37
      貝加爾湖事故升級!妻女遇難,逃生者是父親,疑動作慢被網暴慘了

      貝加爾湖事故升級!妻女遇難,逃生者是父親,疑動作慢被網暴慘了

      聽風喃
      2026-02-25 13:53:39
      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      深度報
      2026-02-11 23:35:03
      官方通報“首都博物館觀眾留言當天就被丟進垃圾桶”

      官方通報“首都博物館觀眾留言當天就被丟進垃圾桶”

      閃電新聞
      2026-02-25 20:08:35
      假如一等功臣的家屬被欺負了怎樣?網友:這肯定成為焦點

      假如一等功臣的家屬被欺負了怎樣?網友:這肯定成為焦點

      夜深愛雜談
      2026-02-25 21:51:28
      盈利暴跌95%卻豪擲236億搶地王!越秀地產這是賭命還是瘋了?

      盈利暴跌95%卻豪擲236億搶地王!越秀地產這是賭命還是瘋了?

      達文西看世界
      2026-02-26 17:49:48
      潛伏11年,那些被礦渣喂大的香蕉,終于開始向人類“復仇”了

      潛伏11年,那些被礦渣喂大的香蕉,終于開始向人類“復仇”了

      墨印齋
      2026-02-26 08:32:20
      突發!56歲女主持人離世,昏迷3天家人選擇拔管,不想讓她受折磨

      突發!56歲女主持人離世,昏迷3天家人選擇拔管,不想讓她受折磨

      銀河史記
      2026-02-26 19:20:27
      七八十年代流行全國的“的確良”,為何突然消失了?其實它改了名

      七八十年代流行全國的“的確良”,為何突然消失了?其實它改了名

      云霄紀史觀
      2026-01-06 02:00:19
      BBA集體 “大跳水”!奧迪跌破10萬,寶馬降27萬...網友:感謝新能源!

      BBA集體 “大跳水”!奧迪跌破10萬,寶馬降27萬...網友:感謝新能源!

      極果酷玩
      2026-02-26 16:49:51
      夜襲陽明堡機場,我軍一共犧牲了多少戰士,摧毀多少架日寇戰機?

      夜襲陽明堡機場,我軍一共犧牲了多少戰士,摧毀多少架日寇戰機?

      近史談
      2026-02-27 00:14:26
      攤牌了!黃曉明不再隱瞞,澳門輸10億真相大白,周杰倫也被拉下水

      攤牌了!黃曉明不再隱瞞,澳門輸10億真相大白,周杰倫也被拉下水

      天天熱點見聞
      2026-02-25 05:36:20
      湖北一國企董事長,主動投案

      湖北一國企董事長,主動投案

      越喬
      2026-02-26 17:59:25
      美官員證實:自特朗普批準對華出口芯片兩個月來,英偉達H200對華銷售為零

      美官員證實:自特朗普批準對華出口芯片兩個月來,英偉達H200對華銷售為零

      瀟湘晨報
      2026-02-26 11:19:00
      2026-02-27 01:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12368文章數 142569關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      美國政府對外交官下令:開始行動

      頭條要聞

      美國政府對外交官下令:開始行動

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      向華強公開表態 財產留給兒媳婦郭碧婷

      財經要聞

      中國AI調用量超美國 4款大模型霸榜前5

      汽車要聞

      40歲的吉利,不惑于內外

      態度原創

      時尚
      教育
      房產
      游戲
      軍事航空

      今年春天最美搭配:西裝+半裙,怎么穿都好看!

      教育要聞

      學習的真正對手,是精力分配失衡

      房產要聞

      2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

      穿不起內衣的啥子國王,是怎么從妮姬表情包之王變成底層邏輯的?

      軍事要聞

      美政府給新伊核協議設限內容遭披露

      無障礙瀏覽 進入關懷版