網易首頁 > 網易號 > 正文申請入駐

人大突破：多模態AI實現人類級感知與推理能力

2026-02-27 22:20:56　來源: 科技行者

北京舉報

分享至

這項由中國人民大學聯合小紅書等機構開展的開創性研究于2026年2月發表，研究團隊提出了OmniGAIA基準測試和OmniAtlas智能體模型。有興趣深入了解的讀者可以通過論文編號arXiv:2602.22897v1查詢完整論文。

人工智能發展至今，我們見證了許多令人驚嘆的突破。從能夠下圍棋的AlphaGo，到能夠寫文章的ChatGPT，再到能夠生成圖片的DALL-E。但有一個問題一直困擾著研究者：如何讓機器像人類一樣，能夠同時看、聽、思考，并且使用各種工具來解決復雜問題？

考慮這樣一個日常場景：當你在看一部電影時，你不僅能看到畫面中的演員和場景，還能聽到對話和背景音樂，同時你的大腦在快速整合這些信息，理解劇情發展，甚至可能拿出手機搜索相關信息來驗證某個歷史細節。這種多感官協調工作的能力，正是研究團隊希望機器能夠掌握的。

傳統的AI系統往往只能處理單一類型的信息，比如只能看圖片或者只能聽聲音，就像一個只有一只眼睛或只有一只耳朵的人。即使有些系統能同時處理視覺和聽覺信息，它們通常也缺乏使用外部工具進行深層推理的能力，就像一個雖然五官健全但不會使用任何工具的人。

研究團隊認識到，真正的智能應該具備三個核心要素：全面的感知能力（能同時處理視頻、音頻和文本），深度的推理能力（能進行多步驟的邏輯思考），以及工具使用能力（能主動搜索信息、執行代碼等）。這就像一個偵探破案需要觀察現場、詢問證人、查閱資料，并運用邏輯推理將所有線索串聯起來。

為了推動這一領域的發展，研究團隊做了兩件事：首先，他們創建了一個名為OmniGAIA的嚴格測試標準，用來評估AI系統的全方位智能水平；其次，他們開發了名為OmniAtlas的AI智能體，展示了如何構建具備這種全方位能力的系統。

一、構建史上最具挑戰性的多模態智能測試

設計一個能夠全面評估AI智能的測試，就像為奧運會設計比賽項目一樣復雜。你不能只測試運動員的短跑速度，還要考察他們的耐力、技巧、策略思維等多個維度。

OmniGAIA測試包含360個精心設計的任務，涵蓋了地理旅游、歷史社會、技術科學、體育娛樂等九個不同領域。每個任務都要求AI系統同時處理視頻畫面和音頻內容，并通過網絡搜索、代碼執行等工具來找到準確答案。這些任務的設計理念就像是為AI設計的"智力奧運會"，全面考察其感知、推理和工具使用能力。

測試任務的復雜程度可以用一個具體例子來說明。在一個任務中，AI需要觀看一段在芝加哥拍攝的視頻，聽到說話者提及一座橋梁讓他想起了電影《藍調兄弟》中的場景。然后AI必須識別這座具體的橋梁，搜索其建造時間，查找電影的拍攝開始日期，最后計算出拍攝開始時這座橋已經存在了多少年。這個過程需要AI協調視覺觀察、聽覺理解、背景知識搜索和數學計算等多種能力。

研究團隊采用了一種創新的"事件圖"構建方法來設計這些測試。他們首先從真實的視頻和音頻材料中提取關鍵信息，就像偵探從案發現場收集證據一樣。然后構建一個包含實體、事件和關系的復雜網絡圖，類似于偵探案件板上用紅線連接的各種線索。接著，他們會故意"模糊化"某些關鍵節點，迫使AI系統必須通過多步推理和工具使用才能找到答案，就像故意隱藏某些關鍵證據，考驗偵探的推理能力。

為了確保測試的質量和可靠性，研究團隊建立了嚴格的質量控制流程。每個任務都要經過AI系統的初步篩選，檢查問題的自然性、答案的唯一性和解答的必要性。然后由計算機科學專業的研究生進行人工審核，確保每個問題都有明確的答案且可以通過給定的方法解決。這個過程就像制作一道需要多種食材和復雜工序的菜品，每個步驟都必須精確無誤。

測試結果顯示了當前AI系統的真實水平。最強的商業AI系統Gemini-3-Pro的準確率為62.5%，而最好的開源系統Qwen3-Omni僅達到13.3%。這個巨大的性能差距揭示了當前AI技術的兩個關鍵瓶頸：多模態感知的準確性和復雜推理的可靠性。許多系統在面對需要協調視覺、聽覺和邏輯思維的復雜任務時，就像一個試圖同時進行多項活動但協調不佳的人，往往在某個環節出現錯誤，導致最終結果的失敗。

二、開發具備主動感知能力的智能體

在解決了如何評估AI能力的問題后，研究團隊面臨的下一個挑戰是：如何實際構建一個具備這種全方位能力的AI系統？這就像在知道了奧運會比賽標準后，需要訓練出能夠參賽的優秀運動員。

OmniAtlas智能體的設計理念基于一個重要洞察：真正的智能不僅要能處理信息，還要能主動獲取所需的信息。就像一個經驗豐富的醫生，在診斷病情時不會被動地等待所有檢查結果，而是會根據初步觀察主動要求進行特定的檢查。

傳統的AI系統在處理長視頻或高分辨率圖像時，往往會將所有內容一次性壓縮處理，這就像試圖在一張小紙條上記錄整本書的內容，必然會丟失大量重要細節。OmniAtlas采用了"主動感知"策略，能夠像人類一樣有選擇性地關注特定的時間段或區域。當系統覺得某段視頻內容模糊不清時，它會主動要求重新觀看那個特定片段；當某個圖像區域需要仔細檢查時，它會主動放大查看那個區域。

這種主動感知能力的實現依賴于三個核心工具功能。首先是時間定位工具，允許系統指定查看視頻的特定時間段，就像使用遙控器精確定位到感興趣的電影片段。其次是區域定位工具，能夠裁剪和放大圖像的特定區域，類似于使用放大鏡仔細觀察文檔的某個部分。最后是跨模態檢索工具，能夠根據當前掌握的信息主動搜索相關的視頻、音頻或圖像材料，就像偵探根據現有線索尋找更多相關證據。

系統的推理過程采用了"工具集成推理"模式，這意味著思考和行動是緊密交織的，而不是分離的。傳統的AI系統往往是先思考再行動，就像一個學生先在腦中想好所有答案再開始寫作業。但OmniAtlas的工作方式更像是一個研究者，在思考過程中不斷查閱資料、驗證假設、修正觀點，思維和行動相互促進。

為了訓練這樣的智能體，研究團隊開發了一套創新的"后見引導樹探索"方法。這個方法的核心思想是讓AI系統在已知正確答案的情況下，學習如何一步步到達這個答案。就像教一個學生解數學題，不僅要告訴他答案是什么，更要讓他理解每一步推理的邏輯。系統會嘗試多條不同的推理路徑，只保留那些最終導向正確答案的路徑用于學習，從而掌握有效的問題解決策略。

三、突破性的精細化錯誤糾正技術

即使有了好的訓練數據和方法，AI系統仍然會在復雜任務中犯各種錯誤。研究團隊發現，簡單的整體訓練方法就像用大錘敲核桃，雖然有效但不夠精確。他們需要一種更加精細的方法來糾正系統的特定錯誤類型。

研究團隊開發了名為OmniDPO的精細化錯誤糾正技術。這個技術的工作原理類似于一位耐心的老師，當學生做錯題時，不是簡單地告訴他整個解答過程都是錯的，而是精確指出他在哪一步開始出錯，然后從那個關鍵點開始糾正。

具體來說，當AI系統在解決問題時出現錯誤，OmniDPO會仔細分析整個推理過程，找到第一個出錯的步驟。可能是在視覺感知階段誤讀了圖像內容，可能是在信息搜索階段使用了錯誤的關鍵詞，也可能是在邏輯推理階段做出了不當的假設。找到錯誤點后，系統會生成一個修正版本，展示在那個關鍵步驟應該如何正確處理。

這種方法的效果就像為AI系統安裝了一個精確的"糾錯雷達"。通過對比錯誤版本和正確版本的差異，系統能夠學會識別和避免類似的錯誤模式。實驗結果顯示，經過這種精細化訓練的系統，在各種類型的錯誤上都有顯著改善，特別是在工具使用和推理邏輯方面的錯誤率大幅下降。

四、現實世界的挑戰與突破

研究團隊對當前AI系統進行了深入的錯誤分析，就像醫生為病人做全面體檢，找出各個器官的健康狀況。他們發現了一個令人擔憂的現象：越是困難的任務，AI系統的失敗率就越高，而且失敗往往是連鎖反應式的。

在簡單任務中，AI系統的表現相對穩定，錯誤主要集中在單一環節。但在復雜任務中，一個小錯誤往往會引發連鎖反應，就像多米諾骨牌倒塌一樣。比如，如果系統在最初的視覺感知階段就誤解了場景內容，那么后續的所有推理和工具使用都會建立在錯誤的基礎上，最終導致完全錯誤的結論。

研究發現，工具使用失敗和推理錯誤是最主要的兩種失敗模式。在困難任務中，超過90%的開源系統都會出現工具使用問題，約80%會出現推理錯誤。這表明當前的AI系統在面對復雜挑戰時，就像一個雖然有很多工具但不知道如何正確使用的工匠，往往是有心無力。

另一個重要發現是關于"原生感知"與"工具輔助感知"的比較。研究團隊測試了兩種不同的架構：一種是系統本身具備多模態感知能力，另一種是通過調用專門的感知工具來處理視覺和聽覺信息。結果顯示，對于能力強的AI系統，原生感知效果更好，效率也更高；但對于能力較弱的系統，工具輔助感知可以在一定程度上彌補其不足，就像給視力不好的人配眼鏡一樣。

工具使用模式的分析也揭示了有趣的現象。研究團隊發現，工具使用的頻率和成功率之間并不是簡單的正比關系。一些系統雖然頻繁使用工具，但成功率并不高，這說明它們陷入了"無效探索"的困境，就像一個迷路的人在原地打轉。而成功的系統往往能夠更加精準地使用工具，每次工具調用都有明確的目的和預期效果。

五、開源與商業系統的巨大鴻溝

測試結果揭示了一個不容忽視的現實：開源AI系統與商業系統之間存在著巨大的性能差距。最強的商業系統Gemini-3-Pro達到了62.5%的準確率，而最好的開源系統Qwen3-Omni只有13.3%，差距超過4倍。這個結果就像業余球隊與職業球隊的比賽，實力懸殊令人印象深刻。

更令人意外的是，簡單地增加系統參數并不能有效提升性能。一個擁有5600億參數的大型開源系統，表現竟然不如參數量少得多的系統。這說明在多模態智能領域，系統架構和訓練方法比單純的規模更加重要，就像廚藝的高低不在于食材的多少，而在于對食材的理解和處理技巧。

經過OmniAtlas方法訓練的開源系統顯示出了顯著的改進。雖然仍然無法達到頂級商業系統的水平，但相比原始版本有了明顯提升。例如，經過訓練的Qwen3-Omni系統準確率從13.3%提升到了20.8%，提升幅度達到56%。這個進步雖然可觀，但也說明了在這個領域還有很長的路要走。

研究團隊特別分析了不同難度級別任務的表現差異。在簡單任務中，系統間的差距相對較小，但隨著任務難度增加，差距迅速拉大。在最困難的任務中，即使是最強的商業系統也只能達到38.5%的準確率，而開源系統幾乎完全失效。這個現象說明，真正的智能挑戰在于處理那些需要深度推理和復雜工具協調的任務。

六、實際應用案例的深度解析

為了更好地理解AI系統的工作原理和失敗模式，研究團隊選擇了一個典型案例進行詳細分析。這個案例就像一面鏡子，清晰地反映出當前AI技術的優勢和不足。

案例的背景是這樣的：在一段視頻中，說話者正在參觀芝加哥的一個歷史遺跡，他指著遠處的一座可移動橋梁，說它讓他想起了電影《藍調兄弟》中的某座橋。系統需要確定這座橋的名字，并計算出電影拍攝開始時這座橋已經存在了多少年。

這個看似簡單的問題實際上需要AI系統協調多種復雜能力。首先，系統必須準確理解視頻和音頻內容，識別出說話者所在的具體位置。其次，系統需要抵抗來自電影《藍調兄弟》的"干擾信息"——雖然電影確實在芝加哥拍攝并涉及橋梁場景，但關鍵是要找到視頻中實際出現的那座橋，而不是電影中的橋。最后，系統需要搜索準確的建造時間和拍攝開始時間，并進行正確的數學計算。

研究團隊觀察了三個不同系統對同一問題的處理過程。第一個系統完全沒有使用任何工具，僅憑內部知識就做出了判斷，結果選擇了錯誤的橋梁并給出了錯誤的年份。這就像一個學生在考試時完全憑記憶答題，雖然速度很快但準確性堪憂。

第二個系統使用了搜索工具，但搜索策略有問題。它過度關注《藍調兄弟》電影相關的芝加哥橋梁信息，陷入了"確認偏誤"的陷阱。雖然最終的計算過程是正確的，但由于基礎信息錯誤，結果仍然是錯誤的。這就像一個偵探雖然很努力地收集證據，但從一開始就跟錯了方向，越努力離真相越遠。

第三個系統展現了正確的問題解決策略。它首先基于視頻內容確定了具體的地理位置，然后搜索該位置附近的橋梁信息，接著驗證橋梁的建造時間和電影的拍攝時間，最后進行準確的計算。這個過程就像一個經驗豐富的偵探，不被表面信息誤導，堅持以事實為基礎，逐步驗證每個關鍵信息點。

通過這個案例分析，研究團隊識別了兩種主要的失敗模式：工具使用不足和搜索策略偏移。前者是指系統過度依賴內部知識而不愿意或不知道如何使用外部工具驗證信息；后者是指系統雖然使用了工具，但被錯誤的先入之見引導，搜索方向出現偏差。成功的系統展現出的特征是：位置優先的定位策略、假設驗證的科學方法，以及計算前的事實核實習慣。

七、技術創新的深層意義

OmniGAIA和OmniAtlas的研究成果不僅僅是技術上的進步，更重要的是為AI發展指明了新的方向。這項工作就像在AI發展的地圖上標注了新的里程碑，讓研究者們看到了通往真正智能的可能路徑。

研究揭示了一個重要觀點：未來的AI系統不應該是被動的信息處理器，而應該是主動的問題解決者。傳統的AI系統就像一臺精密的計算器，給什么算什么，但缺乏主動獲取信息和驗證結果的能力。而新一代的AI系統應該更像一個研究助手，能夠理解問題的本質，主動尋找相關信息，并通過多種工具驗證結論的正確性。

主動感知能力的重要性在這項研究中得到了充分體現。與其讓AI系統處理所有可能的信息，不如讓它學會識別哪些信息是真正重要的，并主動獲取這些關鍵信息。這種方法不僅提高了效率，還顯著改善了準確性。就像一個聰明的學生不會試圖記住教科書的每一個字，而是會重點理解和掌握核心概念和關鍵信息。

工具集成推理的概念也具有深遠的影響。這種方法打破了思考和行動之間的人為界限，讓AI系統能夠在推理過程中靈活地使用各種工具。這更接近人類解決復雜問題的方式——我們在思考時會查閱資料、進行計算、尋求他人意見，思維和行動是相互促進的過程。

研究還強調了評估方法的重要性。OmniGAIA基準測試的創新不僅在于其復雜性，更在于其真實性。這些測試任務都來源于現實世界的實際需求，要求AI系統給出可驗證的具體答案，而不是模糊的描述。這種評估方式能夠更準確地反映AI系統在實際應用中的表現，避免了傳統測試可能存在的"應試"問題。

八、未來發展的廣闊前景

這項研究不僅解決了當前的技術問題，更為未來的發展開辟了新的可能性。研究團隊在論文中提出了三個值得期待的發展方向，每個都有著巨大的潛力。

第一個方向是多模態智能體的強化學習。目前的訓練方法主要基于監督學習，即給AI系統展示正確的問題解決過程讓它模仿。但強化學習方法能讓AI系統通過試錯來自主發現更好的策略，就像一個孩子通過不斷嘗試來學會騎自行車。這種方法可能會讓AI系統發現人類沒有想到的創新解決方案。

第二個方向是可擴展的多模態工具生態系統。目前的AI系統只能使用預定義的少數幾種工具，但未來可能會出現一個龐大的工具生態系統，包含各種專業領域的工具和服務。AI系統可以根據需要動態選擇和組合這些工具，就像一個多才多藝的工匠能夠熟練使用各種專業工具來完成復雜的工作。

第三個方向是物理世界中的具身智能體。當前的研究主要關注數字世界中的信息處理，但未來的AI系統可能需要在真實的物理環境中工作。這意味著AI不僅要能看、聽、想，還要能夠操控物理對象，與現實世界直接交互。這種具身智能將為機器人技術、自動化系統和智能制造帶來革命性的改變。

研究團隊特別強調了開源開放的重要性。他們不僅公開了所有的測試數據和評估工具，還分享了訓練方法和模型代碼。這種開放態度將加速整個領域的發展，讓更多研究者能夠在這個基礎上繼續探索和創新。就像科學研究中的同行評議制度，開放分享能夠促進知識的快速傳播和驗證。

展望更遠的未來，這種多模態AI技術可能會徹底改變人機交互的方式。想象一個AI助手，它不僅能理解你說的話，還能觀察你的表情和動作，理解你所處的環境和上下文，并能主動幫你搜索信息、預訂服務、安排日程。這樣的AI助手將真正成為人類的智能伙伴，而不僅僅是一個高級的工具。

在教育領域，這種技術可能會創造出革命性的個性化學習系統。AI教師能夠觀察學生的學習狀態，聽取他們的問題，理解他們的困惑，并動態調整教學內容和方法。在醫療領域，AI診斷系統能夠綜合分析醫學影像、患者描述、病歷記錄等多種信息，提供更加準確和全面的診斷建議。

說到底，這項研究代表的不僅是技術的進步，更是對智能本質的深刻理解。真正的智能不在于處理信息的速度有多快，而在于能否像人類一樣靈活地感知世界、理解問題、尋找解決方案。OmniGAIA和OmniAtlas為我們展示了這種智能的可能性，雖然距離完美還有很長的路要走，但方向已經清晰，未來值得期待。

當前的AI發展正處在一個關鍵的轉折點。我們已經證明了機器可以在特定任務上超越人類，現在的挑戰是讓機器獲得像人類一樣的通用智能。這項研究提供的不僅是技術方案，更是思路啟發：真正的智能需要感知、推理和行動的完美結合，需要主動性而不是被動性，需要工具使用能力而不僅僅是信息處理能力。

對于普通人來說，這項研究意味著什么呢？也許在不久的將來，我們將擁有真正智能的數字助手，它們能夠理解我們的需求，主動幫助我們解決問題，就像一個貼心而能干的朋友。這種技術可能會讓我們的生活更加便利，工作更加高效，學習更加有趣。當然，這也提醒我們需要思考如何在享受AI帶來的便利的同時，保持人類獨有的創造力和批判思維能力。

Q&A

Q1：OmniGAIA基準測試和普通的AI測試有什么不同？

A：OmniGAIA基準測試最大的不同在于它要求AI系統同時處理視頻、音頻和文本信息，并且必須使用外部工具（如網絡搜索、代碼執行）來解決問題。傳統測試通常只考察單一能力，比如只看圖片或只聽聲音，而OmniGAIA就像給AI設計的"智力奧運會"，全面考察感知、推理和工具使用的綜合能力。測試包含360個復雜任務，都需要多步推理和外部驗證才能完成。

Q2：OmniAtlas智能體的"主動感知"能力是如何工作的？

A：OmniAtlas的主動感知就像一個經驗豐富的醫生進行診斷，不會被動等待所有檢查結果，而是根據需要主動要求特定檢查。當處理長視頻時，它可以主動選擇查看特定時間段；處理圖像時，可以主動放大某個區域仔細觀察。這避免了傳統AI系統將所有內容一次性壓縮處理而丟失重要細節的問題，大大提高了處理復雜多媒體內容的準確性和效率。

Q3：為什么開源AI系統和商業系統在這個測試中差距這么大？

A：測試結果顯示最強的商業系統達到62.5%準確率，而最好的開源系統只有13.3%，差距超過4倍。這主要是因為多模態智能需要的不僅僅是大量參數，更需要精細的架構設計和訓練方法。商業系統在數據質量、訓練資源和算法優化方面都有優勢。有趣的是，簡單增加參數并不能解決問題，一個5600億參數的系統表現還不如參數更少的系統，說明在這個領域技術方法比規模更重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.