開源多模態(tài)推理「破壁」時(shí)刻：MMFineReason助力4B逆襲30B

2026-02-13 15:51:35　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

長期以來，開源多模態(tài)模型在復(fù)雜推理任務(wù)上，始終與 GPT-4o、Gemini 等頂尖閉源模型存在一道難以逾越的鴻溝。

社區(qū)開發(fā)者們逐漸意識到，核心痛點(diǎn)或許不在于模型架構(gòu)的精進(jìn)或者模型參數(shù)的規(guī)模。真正的瓶頸，在于高質(zhì)量、思維鏈（CoT）密集的推理數(shù)據(jù)極度匱乏。

在純文本領(lǐng)域，DeepSeek-R1 的成功已驗(yàn)證了高質(zhì)量后訓(xùn)練數(shù)據(jù)（Post-training Data）的威力，但在多模態(tài)領(lǐng)域，我們面對的是橫亙在眼前的「兩座大山」：

數(shù)據(jù)失衡：現(xiàn)有開源多模態(tài)數(shù)據(jù)仍以簡單 VQA 與自然圖像為主，而對于真正具有高推理價(jià)值的數(shù)據(jù)，如 STEM 圖表、邏輯謎題、復(fù)雜視覺符號等數(shù)據(jù)不僅少，而且標(biāo)注成本極高。
推理質(zhì)量參差不齊：即便現(xiàn)有的「推理數(shù)據(jù)」也存在推理過程短、模版化，標(biāo)注粒度不足、缺乏中間驗(yàn)證、視覺與邏輯推理割裂的問題。

為了填補(bǔ)這一空白，上海 AI 實(shí)驗(yàn)室 OpenDataLab 研究團(tuán)隊(duì)正式開源了 MMFineReason 框架。這既是一套全流程 100% 基于開源生態(tài)、可復(fù)現(xiàn)的多模態(tài)推理數(shù)據(jù)合成 Pipeline，同時(shí)也開源了由此方法構(gòu)建的包含1.8M 高質(zhì)量樣本、5.1B Token的大規(guī)模數(shù)據(jù)集。

論文標(biāo)題：MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
Huggingface 論文：https://huggingface.co/papers/2601.21821
項(xiàng)目主頁：https://mmfinereason.github.io/
數(shù)據(jù)集 & 模型：https://huggingface.co/collections/OpenDataArena/mmfinereason

小模型，大性能：高效數(shù)據(jù)選擇的強(qiáng)大優(yōu)勢

先來秀一秀性能結(jié)果。團(tuán)隊(duì)很驚喜的發(fā)現(xiàn)，MMFineReason 的出現(xiàn)，標(biāo)志著多模態(tài)模型進(jìn)入了「以小博大」的新階段。

實(shí)驗(yàn)數(shù)據(jù)顯示，MMFineReason-4B模型基于 Qwen3-VL-4B 訓(xùn)練而成，其推理能力不僅超越了 Qwen3-VL-8B-Thinking，性能更是直逼 30B 參數(shù)規(guī)模的 Qwen3-VL-30B-A3B-Thinking。

更令研究團(tuán)隊(duì)驚喜的是，同樣基于同尺寸底座訓(xùn)練的MMFineReason-8B，表現(xiàn)更加優(yōu)秀：它直接擊敗了 Qwen3-VL-30B-A3B-Thinking 和 Gemini-2.5-Flash，并開始向 GPT5-mini-High 及 Qwen3-VL-32B-Thinking 等頂級模型發(fā)起沖擊。

值得強(qiáng)調(diào)的是，這種「跨級碾壓」的性能躍遷并非來自新的模型結(jié)構(gòu)設(shè)計(jì)，也不是通過更復(fù)雜的訓(xùn)練技巧實(shí)現(xiàn)的，而幾乎完全源于數(shù)據(jù)層面的變化—— 尤其是推理數(shù)據(jù)的結(jié)構(gòu)化程度與單位樣本中的有效推理密度。

更進(jìn)一步，團(tuán)隊(duì)還發(fā)現(xiàn)通過難度感知過濾，能實(shí)現(xiàn)極高的數(shù)據(jù)轉(zhuǎn)換效率：僅使用總量 7%（約 123K）的高難度精選子集數(shù)據(jù)，即可媲美全量 1.8M 數(shù)據(jù)相當(dāng)?shù)男阅鼙憩F(xiàn)。

因此，當(dāng)數(shù)據(jù)被有效篩選、難度與模型能力精確對齊時(shí)，數(shù)據(jù)選擇本身就成為決定參數(shù)效率的核心杠桿。

揭秘「Closed-Source Level」數(shù)據(jù)管線：完全開源的數(shù)據(jù)生產(chǎn)線

不同于依賴黑盒 API 的傳統(tǒng)方案，MMFineReason 構(gòu)建了一套完全開源的透明且高效的 Pipeline，全流程 100% 基于開源模型。整個(gè)流程主要通過三個(gè)階段來實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)的生產(chǎn)：

數(shù)據(jù)標(biāo)準(zhǔn)化：首先從源頭定義「什么是可推理任務(wù)」，對 STEM、Puzzle、圖、幾何、科學(xué)表等多領(lǐng)域數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理并統(tǒng)一 Schema，并進(jìn)行嚴(yán)格的清洗。
推理蒸餾：利用 Qwen3-VL-235B-Thinking 作為老師模型進(jìn)行推理蒸餾，并嚴(yán)格遵守四階段推理框架：「視覺感知 → 邏輯推導(dǎo) → 中間驗(yàn)證 → 結(jié)論確認(rèn)」，從而來生成詳細(xì)且具備「視覺落地」能力的 CoT 推理軌跡。
雙重過濾：為了確保訓(xùn)練的高效性，團(tuán)隊(duì)引入了雙層篩選機(jī)制，第一是正確性過濾，確保答案與推理過程嚴(yán)格一致；在剔除低質(zhì)量 CoT 的基礎(chǔ)上，進(jìn)行難度感知（Difficulty-Aware）過濾，專門篩選出對 Qwen3-VL-4B 小模型具有高「訓(xùn)練價(jià)值」的樣本，即「小模型穩(wěn)定失敗」的樣本，從而避免了無效數(shù)據(jù)的堆砌。

最終，研究團(tuán)隊(duì)得到了 MMFineReason-1.8M（正確全量）， MMFineReason-586K（正確且去掉過于簡單樣本），以及 MMFineReason-123K（正確且最困難樣本）三個(gè)高質(zhì)量數(shù)據(jù)集。

MMFineReason-1.8M：專為「深度推理」打造的高質(zhì)量多模態(tài)數(shù)據(jù)

與其說 MMFineReason 是一個(gè)常規(guī)的 VQA 數(shù)據(jù)集，倒不如將其定義為一個(gè)專為多模態(tài)大模型準(zhǔn)備的「硬核思維訓(xùn)練場」。在當(dāng)前多模態(tài)領(lǐng)域普遍陷入「數(shù)據(jù)饑渴」與「思維鏈斷層」的背景下，該項(xiàng)目展現(xiàn)出了極具辨識度的核心特征。

首先，MMFineReason 在思維深度上實(shí)現(xiàn)了質(zhì)的飛躍。相比 HoneyBee 等同類數(shù)據(jù)集，其平均思維鏈（CoT）長度達(dá)到了驚人的 2,910 tokens，規(guī)模足足是前者的2.7 倍。這種長路徑推理數(shù)據(jù)的引入，本質(zhì)上是讓模型告別了簡單的「直覺判斷」，轉(zhuǎn)而掌握一套詳盡且具象的「視覺 - 邏輯」推導(dǎo)范式。

在領(lǐng)域分布上，研究團(tuán)隊(duì)展現(xiàn)出了鮮明的去平庸化導(dǎo)向，堅(jiān)決拒絕易于「刷分」的簡單樣本，轉(zhuǎn)而深耕高難度邏輯腹地。

數(shù)據(jù)集中，數(shù)學(xué)領(lǐng)域以 79.4% 的絕對占比強(qiáng)化了符號推理根基，涵蓋了幾何、微積分等深度學(xué)科；13.8% 的科學(xué)數(shù)據(jù)則聚焦于復(fù)雜的物理、化學(xué)圖表分析；此外，數(shù)據(jù)集還引入了 4.6% 的謎題與游戲數(shù)據(jù)，通過抽象模式識別與策略博弈，不斷試探并挑戰(zhàn)開源模型的智商上限。

圖為 MMFineReason 數(shù)據(jù)集的數(shù)據(jù)分布情況。可以看到數(shù)據(jù)集的領(lǐng)域覆蓋了數(shù)學(xué)、謎題與游戲、幾何 / 微積分、圖表與復(fù)雜科學(xué)等。

更具深遠(yuǎn)意義的洞察在于這種高強(qiáng)度訓(xùn)練帶來的「協(xié)同提升效應(yīng)」。實(shí)驗(yàn)結(jié)果打破了專項(xiàng)訓(xùn)練會削弱通用能力的固有認(rèn)知：當(dāng)模型在 STEM 和邏輯難題上進(jìn)行深度鉆研時(shí)，其在一般性 VQA 任務(wù)上的表現(xiàn)反而得到了同步增強(qiáng)。這種以點(diǎn)帶面的能力釋放，再次印證了高質(zhì)量邏輯鏈條才是驅(qū)動模型性能跨級演進(jìn)的真邏輯。

結(jié)語與展望

MMFineReason 的開源，證明了在多模態(tài)領(lǐng)域，當(dāng)模型架構(gòu)逐漸收斂、參數(shù)規(guī)模的邊際收益不斷下降，決定能力差距的，不再是模型有多大，而是「數(shù)據(jù)是否真的教會模型如何推理」。通過精細(xì)化的數(shù)據(jù)工程，小參數(shù)模型完全有潛力在復(fù)雜推理任務(wù)上對抗甚至超越大參數(shù)模型。

這不是一次規(guī)模的勝利，而是Data-Centric 方法論的勝利。我們期待未來在多模態(tài)開源大模型的路上，能用更高效、更高價(jià)值的數(shù)據(jù)來促進(jìn)社區(qū)的進(jìn)步。

目前，該項(xiàng)目已在 Huggingface 及 GitHub 全面上線，為開源社區(qū)提供了從數(shù)據(jù)到工具鏈的完整支撐。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.