![]()
港中文岳翔宇教授團隊提出統一多模態推理模型 OneThinker,驗證任務泛化能力。
作者丨鄭佳美
編輯丨岑峰
![]()
在大模型邁向通用視覺智能的浪潮中,單一任務或單一模態的方法正面臨瓶頸。現實世界的視覺理解系統不僅要回答問題,還要理解動態視頻、定位事件、跟蹤目標、生成描述乃至進行復雜的邏輯推理,這要求模型具備綜合的跨任務和跨模態能力。
然而,現有方法多數依賴任務專化模型,難以實現不同視覺任務間的協同與知識共享,這不僅導致系統復雜度高,也限制了模型在綜合推理場景中的表現。
在這樣的行業背景下,香港中文大學多媒體實驗室(MMLab)與美團的聯合研究團隊提出了OneThinker多模態統一推理模型,并在論文中系統性地給出了答案。
不同于為每個視覺任務單獨設計模型,OneThinker 選擇了一條更激進的路線:將圖像與視頻中的問答、描述、時空定位、跟蹤和分割等任務統一抽象為“先推理、后作答”的通用形式,并通過多任務強化學習對模型進行整體優化。
這項工作不僅關注模型在單一基準上的性能提升,更試圖驗證一個更根本的問題,“是否可以通過統一的推理機制,讓一個模型同時具備多種視覺理解與推理能力,而不犧牲任何單項任務的表現?”
圍繞這一問題,研究團隊構建了大規模多任務數據集,引入改進的強化學習算法,并在圖像與視頻兩種模態上進行了系統而全面的實驗評測,為通用視覺推理模型的設計提供了具有參考價值的實證結果。
![]()
論文地址:https://arxiv.org/pdf/2512.03043v2
01
從任務割裂到統一推理
為驗證 OneThinker 模型在多模態、多任務場景下的有效性,研究團隊在圖像與視頻兩種模態上,對多類典型視覺理解任務進行了系統評測。實驗內容涵蓋問答、描述、定位、跟蹤和分割等多個方向,旨在全面評估模型在不同任務類型和不同模態下的整體表現。
從整體實驗結果來看,OneThinker 在絕大多數視覺理解任務中均優于基礎模型以及多種現有開源方法,表現出較為穩定的性能優勢。這一結果表明,通過統一建模并引入多任務強化學習機制,模型能夠在不犧牲單任務性能的前提下,有效提升其綜合推理能力和跨任務適應性。
![]()
在圖像問答任務中,OneThinker 需要同時處理視覺內容理解、數學推理、邏輯推斷以及跨模態信息融合等多種復雜能力。實驗結果顯示,該模型在多項高難度圖像問答任務中均取得了明顯優于對比模型的表現,尤其在涉及數學推理、科學推理和多步驟邏輯推斷的問題上優勢更加突出。
上述結果表明,統一的推理框架不僅未削弱模型在復雜問答任務中的表現,反而通過多任務聯合訓練,使模型獲得了更強的抽象推理能力和跨領域泛化能力。
![]()
在視頻問答任務中,模型不僅需要理解單幀視覺信息,還需有效建模時間順序、事件演變以及長程依賴關系。實驗結果表明,OneThinker 在多項視頻問答任務中整體性能優于專門針對視頻推理設計的模型,尤其在長視頻推理和視頻數學推理等任務中表現更為突出。
這一結果說明,在統一訓練框架下,OneThinker 成功學習到了穩定而有效的時間建模能力,從而能夠在復雜視頻場景中進行連續推理和事件級理解。
![]()
在圖像和視頻描述任務中,OneThinker 需要生成與視覺內容高度一致、語義連貫且信息完整的自然語言描述。實驗結果表明,該模型在圖像描述和視頻描述任務中均取得了較為領先的性能,生成文本在準確性、完整性和語言質量等方面均有明顯提升。
這進一步說明,推理能力的增強有助于模型更有效地組織和整合視覺信息,從而生成結構更加清晰、邏輯更加合理的描述文本。
![]()
在時間定位任務中,模型需要準確判斷事件在視頻中發生的起止時間;而在空間定位任務中,則需要精確預測目標在圖像中的空間位置。實驗結果顯示,OneThinker 在這兩類任務中均取得了顯著性能提升,能夠更準確地理解事件發生的時間范圍以及目標的空間分布特征。
![]()
進一步地,在同時涉及時間與空間信息的聯合定位任務中,OneThinker 同樣表現出較強的綜合建模能力,表明該模型能夠在統一框架下同時處理“何時發生”和“發生在哪里”這兩個關鍵問題。
![]()
在目標跟蹤任務中,OneThinker 需要在視頻序列中持續、穩定地定位同一目標。實驗結果顯示,該模型在跟蹤精度和整體穩定性方面均明顯優于對比方法,尤其在長時間序列中表現更加穩健。
![]()
在圖像與視頻分割任務中,OneThinker 能夠結合推理過程生成結構化提示,從而有效引導分割模型獲得更加精確的目標區域。實驗結果表明,該模型在細粒度視覺理解任務中同樣具備較強競爭力,說明推理機制能夠對感知類任務形成有效補充。
![]()
此外,通過消融實驗可以發現,僅采用監督微調而不引入強化學習,會導致模型在多項任務上的性能明顯下降;同時,用傳統強化學習方法替代論文提出的 EMA-GRPO 算法,也會引起整體性能的退化。這進一步驗證了強化學習策略及其改進方法在統一多任務訓練中的重要作用。
![]()
最后,在未參與訓練的新任務上,OneThinker 依然表現出較好的零樣本泛化能力,說明統一多任務訓練有助于模型學習更加通用和可遷移的視覺推理知識。
![]()
02
讓推理成為訓練的核心
為支持統一多模態推理模型的訓練,研究中構建了一個大規模、多任務的數據集,覆蓋圖像和視頻兩種模態。這個數據集包含問答、描述、時間定位、空間定位、時空定位、目標跟蹤以及分割等多種視覺理解任務,數據來源廣泛,涵蓋多個應用領域和不同難度層級,從而為模型學習多樣化的視覺推理能力提供了充分支撐。
在此基礎上,研究團隊還進一步構建了一個帶有推理過程標注的子數據集,用于模型的監督微調階段。該子數據集中的推理過程由性能較強的模型自動生成,并經過嚴格的篩選與校驗,以保證推理鏈條在邏輯正確性和表達一致性方面的可靠性,為后續強化學習階段奠定了良好的初始化基礎。
![]()
在訓練過程中,所有任務均被統一表示為“先推理、后作答”的形式,即模型首先生成內部推理過程,再輸出最終答案或結構化結果。這種統一的任務表達方式使不同類型的任務能夠在同一訓練框架下進行聯合優化,同時也便于獎勵函數的自動計算與評估。
對于感知類任務,模型需要輸出符合預定義格式的結構化結果,以確保評估過程具有良好的可重復性和穩定性,從而避免因輸出格式差異帶來的評價偏差。
![]()
在完成監督微調之后,研究團隊引入強化學習進一步提升模型的推理能力。在訓練過程中,模型根據不同任務類型獲得相應的準確性獎勵和格式獎勵,從而引導模型生成既符合任務目標又滿足輸出規范的結果。
![]()
針對多任務訓練中不同任務獎勵分布差異較大的問題,研究中提出了一種基于指數滑動平均的歸一化方法,使各類任務在訓練過程中能夠獲得相對平衡的優化信號,從而有效避免模型過度偏向少數獎勵分布較強的任務。
模型訓練在大規模 GPU 集群上完成,整體訓練流程分為監督微調和強化學習兩個階段。通過合理設置學習率、批大小以及視頻幀數上限,在保證訓練效率的同時,實現了穩定而有效的多任務聯合優化。
03
讓推理跨越任務邊界
從實驗結果可以看出,統一的多模態推理模型在性能層面具有良好的可行性和有效性。這一發現表明,將不同視覺任務整合到同一模型中進行建模,并不會削弱模型在單一任務上的表現,反而能夠在整體上提升其推理能力。
同時,實驗也顯示,強化學習并非只適用于語言推理任務,在引入合適的建模方式后,同樣可以有效作用于視覺感知和時序理解等多模態場景。
在這一背景下,OneThinker 所采用的模型設計思路展現出一定的普適性。通過統一接口、統一訓練流程以及統一優化策略,不同任務和不同模態之間得以共享推理能力和結構性知識,從而減少了重復建模的需求。這種設計范式為通用視覺推理模型的構建提供了一條相對清晰且具有復用價值的技術路徑。
從應用層面來看,統一的多模態推理模型也更貼近真實場景的實際需求。在諸如自動駕駛、智能監控以及機器人感知與決策等任務中,系統往往需要在同一框架下同時完成理解、推理和定位等多種功能。相比依賴多個獨立模型的方案,統一模型在系統復雜度控制和任務協同方面具有更大的潛在優勢。
總體而言,這些實驗結果提示,多模態通用模型的發展方向不應僅停留在模型規模的擴展上,而更值得關注的是任務建模方式的統一、推理機制的合理設計以及訓練策略的協同優化。
這些方面的探索為后續多模態通用智能系統的研究提供了有益的參考。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.