![]()
長期以來,開源多模態(tài)模型在復(fù)雜推理任務(wù)上,始終與 GPT-4o、Gemini 等頂尖閉源模型存在一道難以逾越的鴻溝。
社區(qū)開發(fā)者們逐漸意識到,核心痛點(diǎn)或許不在于模型架構(gòu)的精進(jìn)或者模型參數(shù)的規(guī)模。真正的瓶頸,在于高質(zhì)量、思維鏈(CoT)密集的推理數(shù)據(jù)極度匱乏。
在純文本領(lǐng)域,DeepSeek-R1 的成功已驗(yàn)證了高質(zhì)量后訓(xùn)練數(shù)據(jù)(Post-training Data)的威力,但在多模態(tài)領(lǐng)域,我們面對的是橫亙在眼前的「兩座大山」:
- 數(shù)據(jù)失衡:現(xiàn)有開源多模態(tài)數(shù)據(jù)仍以簡單 VQA 與自然圖像為主,而對于真正具有高推理價(jià)值的數(shù)據(jù),如 STEM 圖表、邏輯謎題、復(fù)雜視覺符號等數(shù)據(jù)不僅少,而且標(biāo)注成本極高。
- 推理質(zhì)量參差不齊:即便現(xiàn)有的「推理數(shù)據(jù)」也存在推理過程短、模版化,標(biāo)注粒度不足、缺乏中間驗(yàn)證、視覺與邏輯推理割裂的問題。
為了填補(bǔ)這一空白,上海 AI 實(shí)驗(yàn)室 OpenDataLab 研究團(tuán)隊(duì)正式開源了 MMFineReason 框架。這既是一套全流程 100% 基于開源生態(tài)、可復(fù)現(xiàn)的多模態(tài)推理數(shù)據(jù)合成 Pipeline,同時(shí)也開源了由此方法構(gòu)建的包含1.8M 高質(zhì)量樣本、5.1B Token的大規(guī)模數(shù)據(jù)集。
![]()
- 論文標(biāo)題:MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
- Huggingface 論文:https://huggingface.co/papers/2601.21821
- 項(xiàng)目主頁:https://mmfinereason.github.io/
- 數(shù)據(jù)集 & 模型:https://huggingface.co/collections/OpenDataArena/mmfinereason
小模型,大性能:高效數(shù)據(jù)選擇的強(qiáng)大優(yōu)勢
先來秀一秀性能結(jié)果。團(tuán)隊(duì)很驚喜的發(fā)現(xiàn),MMFineReason 的出現(xiàn),標(biāo)志著多模態(tài)模型進(jìn)入了「以小博大」的新階段。
實(shí)驗(yàn)數(shù)據(jù)顯示,MMFineReason-4B模型基于 Qwen3-VL-4B 訓(xùn)練而成,其推理能力不僅超越了 Qwen3-VL-8B-Thinking,性能更是直逼 30B 參數(shù)規(guī)模的 Qwen3-VL-30B-A3B-Thinking。
更令研究團(tuán)隊(duì)驚喜的是,同樣基于同尺寸底座訓(xùn)練的MMFineReason-8B,表現(xiàn)更加優(yōu)秀:它直接擊敗了 Qwen3-VL-30B-A3B-Thinking 和 Gemini-2.5-Flash,并開始向 GPT5-mini-High 及 Qwen3-VL-32B-Thinking 等頂級模型發(fā)起沖擊。
值得強(qiáng)調(diào)的是,這種「跨級碾壓」的性能躍遷并非來自新的模型結(jié)構(gòu)設(shè)計(jì),也不是通過更復(fù)雜的訓(xùn)練技巧實(shí)現(xiàn)的,而幾乎完全源于數(shù)據(jù)層面的變化—— 尤其是推理數(shù)據(jù)的結(jié)構(gòu)化程度與單位樣本中的有效推理密度。
更進(jìn)一步,團(tuán)隊(duì)還發(fā)現(xiàn)通過難度感知過濾,能實(shí)現(xiàn)極高的數(shù)據(jù)轉(zhuǎn)換效率:僅使用總量 7%(約 123K)的高難度精選子集數(shù)據(jù),即可媲美全量 1.8M 數(shù)據(jù)相當(dāng)?shù)男阅鼙憩F(xiàn)。
因此,當(dāng)數(shù)據(jù)被有效篩選、難度與模型能力精確對齊時(shí),數(shù)據(jù)選擇本身就成為決定參數(shù)效率的核心杠桿。
![]()
![]()
揭秘「Closed-Source Level」數(shù)據(jù)管線:完全開源的數(shù)據(jù)生產(chǎn)線
![]()
不同于依賴黑盒 API 的傳統(tǒng)方案,MMFineReason 構(gòu)建了一套完全開源的透明且高效的 Pipeline,全流程 100% 基于開源模型。整個(gè)流程主要通過三個(gè)階段來實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)的生產(chǎn):
- 數(shù)據(jù)標(biāo)準(zhǔn)化:首先從源頭定義「什么是可推理任務(wù)」,對 STEM、Puzzle、圖、幾何、科學(xué)表等多領(lǐng)域數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理并統(tǒng)一 Schema,并進(jìn)行嚴(yán)格的清洗。
- 推理蒸餾:利用 Qwen3-VL-235B-Thinking 作為老師模型進(jìn)行推理蒸餾,并嚴(yán)格遵守四階段推理框架:「視覺感知 → 邏輯推導(dǎo) → 中間驗(yàn)證 → 結(jié)論確認(rèn)」,從而來生成詳細(xì)且具備「視覺落地」能力的 CoT 推理軌跡。
- 雙重過濾:為了確保訓(xùn)練的高效性,團(tuán)隊(duì)引入了雙層篩選機(jī)制,第一是正確性過濾,確保答案與推理過程嚴(yán)格一致;在剔除低質(zhì)量 CoT 的基礎(chǔ)上,進(jìn)行難度感知(Difficulty-Aware)過濾,專門篩選出對 Qwen3-VL-4B 小模型具有高「訓(xùn)練價(jià)值」的樣本,即「小模型穩(wěn)定失敗」的樣本,從而避免了無效數(shù)據(jù)的堆砌。
![]()
最終,研究團(tuán)隊(duì)得到了 MMFineReason-1.8M(正確全量), MMFineReason-586K(正確且去掉過于簡單樣本),以及 MMFineReason-123K(正確且最困難樣本)三個(gè)高質(zhì)量數(shù)據(jù)集。
MMFineReason-1.8M:專為「深度推理」打造的高質(zhì)量多模態(tài)數(shù)據(jù)
與其說 MMFineReason 是一個(gè)常規(guī)的 VQA 數(shù)據(jù)集,倒不如將其定義為一個(gè)專為多模態(tài)大模型準(zhǔn)備的「硬核思維訓(xùn)練場」。在當(dāng)前多模態(tài)領(lǐng)域普遍陷入「數(shù)據(jù)饑渴」與「思維鏈斷層」的背景下,該項(xiàng)目展現(xiàn)出了極具辨識度的核心特征。
首先,MMFineReason 在思維深度上實(shí)現(xiàn)了質(zhì)的飛躍。相比 HoneyBee 等同類數(shù)據(jù)集,其平均思維鏈(CoT)長度達(dá)到了驚人的 2,910 tokens,規(guī)模足足是前者的2.7 倍。這種長路徑推理數(shù)據(jù)的引入,本質(zhì)上是讓模型告別了簡單的「直覺判斷」,轉(zhuǎn)而掌握一套詳盡且具象的「視覺 - 邏輯」推導(dǎo)范式。
![]()
在領(lǐng)域分布上,研究團(tuán)隊(duì)展現(xiàn)出了鮮明的去平庸化導(dǎo)向,堅(jiān)決拒絕易于「刷分」的簡單樣本,轉(zhuǎn)而深耕高難度邏輯腹地。
數(shù)據(jù)集中,數(shù)學(xué)領(lǐng)域以 79.4% 的絕對占比強(qiáng)化了符號推理根基,涵蓋了幾何、微積分等深度學(xué)科;13.8% 的科學(xué)數(shù)據(jù)則聚焦于復(fù)雜的物理、化學(xué)圖表分析;此外,數(shù)據(jù)集還引入了 4.6% 的謎題與游戲數(shù)據(jù),通過抽象模式識別與策略博弈,不斷試探并挑戰(zhàn)開源模型的智商上限。
![]()
圖為 MMFineReason 數(shù)據(jù)集的數(shù)據(jù)分布情況。可以看到數(shù)據(jù)集的領(lǐng)域覆蓋了數(shù)學(xué)、謎題與游戲、幾何 / 微積分、圖表與復(fù)雜科學(xué)等。
更具深遠(yuǎn)意義的洞察在于這種高強(qiáng)度訓(xùn)練帶來的「協(xié)同提升效應(yīng)」。實(shí)驗(yàn)結(jié)果打破了專項(xiàng)訓(xùn)練會削弱通用能力的固有認(rèn)知:當(dāng)模型在 STEM 和邏輯難題上進(jìn)行深度鉆研時(shí),其在一般性 VQA 任務(wù)上的表現(xiàn)反而得到了同步增強(qiáng)。這種以點(diǎn)帶面的能力釋放,再次印證了高質(zhì)量邏輯鏈條才是驅(qū)動模型性能跨級演進(jìn)的真邏輯。
結(jié)語與展望
MMFineReason 的開源,證明了在多模態(tài)領(lǐng)域,當(dāng)模型架構(gòu)逐漸收斂、參數(shù)規(guī)模的邊際收益不斷下降,決定能力差距的,不再是模型有多大,而是「數(shù)據(jù)是否真的教會模型如何推理」。通過精細(xì)化的數(shù)據(jù)工程,小參數(shù)模型完全有潛力在復(fù)雜推理任務(wù)上對抗甚至超越大參數(shù)模型。
這不是一次規(guī)模的勝利,而是Data-Centric 方法論的勝利。我們期待未來在多模態(tài)開源大模型的路上,能用更高效、更高價(jià)值的數(shù)據(jù)來促進(jìn)社區(qū)的進(jìn)步。
目前,該項(xiàng)目已在 Huggingface 及 GitHub 全面上線,為開源社區(qū)提供了從數(shù)據(jù)到工具鏈的完整支撐。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.