<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      開源多模態(tài)推理「破壁」時(shí)刻:MMFineReason助力4B逆襲30B

      0
      分享至



      長期以來,開源多模態(tài)模型在復(fù)雜推理任務(wù)上,始終與 GPT-4o、Gemini 等頂尖閉源模型存在一道難以逾越的鴻溝。

      社區(qū)開發(fā)者們逐漸意識到,核心痛點(diǎn)或許不在于模型架構(gòu)的精進(jìn)或者模型參數(shù)的規(guī)模。真正的瓶頸,在于高質(zhì)量、思維鏈(CoT)密集的推理數(shù)據(jù)極度匱乏。

      在純文本領(lǐng)域,DeepSeek-R1 的成功已驗(yàn)證了高質(zhì)量后訓(xùn)練數(shù)據(jù)(Post-training Data)的威力,但在多模態(tài)領(lǐng)域,我們面對的是橫亙在眼前的「兩座大山」:

      1. 數(shù)據(jù)失衡:現(xiàn)有開源多模態(tài)數(shù)據(jù)仍以簡單 VQA 與自然圖像為主,而對于真正具有高推理價(jià)值的數(shù)據(jù),如 STEM 圖表、邏輯謎題、復(fù)雜視覺符號等數(shù)據(jù)不僅少,而且標(biāo)注成本極高。
      2. 推理質(zhì)量參差不齊:即便現(xiàn)有的「推理數(shù)據(jù)」也存在推理過程短、模版化,標(biāo)注粒度不足、缺乏中間驗(yàn)證、視覺與邏輯推理割裂的問題。

      為了填補(bǔ)這一空白,上海 AI 實(shí)驗(yàn)室 OpenDataLab 研究團(tuán)隊(duì)正式開源了 MMFineReason 框架。這既是一套全流程 100% 基于開源生態(tài)、可復(fù)現(xiàn)的多模態(tài)推理數(shù)據(jù)合成 Pipeline,同時(shí)也開源了由此方法構(gòu)建的包含1.8M 高質(zhì)量樣本、5.1B Token的大規(guī)模數(shù)據(jù)集。



      • 論文標(biāo)題:MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
      • Huggingface 論文:https://huggingface.co/papers/2601.21821
      • 項(xiàng)目主頁:https://mmfinereason.github.io/
      • 數(shù)據(jù)集 & 模型:https://huggingface.co/collections/OpenDataArena/mmfinereason

      小模型,大性能:高效數(shù)據(jù)選擇的強(qiáng)大優(yōu)勢

      先來秀一秀性能結(jié)果。團(tuán)隊(duì)很驚喜的發(fā)現(xiàn),MMFineReason 的出現(xiàn),標(biāo)志著多模態(tài)模型進(jìn)入了「以小博大」的新階段。

      實(shí)驗(yàn)數(shù)據(jù)顯示,MMFineReason-4B模型基于 Qwen3-VL-4B 訓(xùn)練而成,其推理能力不僅超越了 Qwen3-VL-8B-Thinking,性能更是直逼 30B 參數(shù)規(guī)模的 Qwen3-VL-30B-A3B-Thinking。

      更令研究團(tuán)隊(duì)驚喜的是,同樣基于同尺寸底座訓(xùn)練的MMFineReason-8B,表現(xiàn)更加優(yōu)秀:它直接擊敗了 Qwen3-VL-30B-A3B-Thinking 和 Gemini-2.5-Flash,并開始向 GPT5-mini-High 及 Qwen3-VL-32B-Thinking 等頂級模型發(fā)起沖擊。

      值得強(qiáng)調(diào)的是,這種「跨級碾壓」的性能躍遷并非來自新的模型結(jié)構(gòu)設(shè)計(jì),也不是通過更復(fù)雜的訓(xùn)練技巧實(shí)現(xiàn)的,而幾乎完全源于數(shù)據(jù)層面的變化—— 尤其是推理數(shù)據(jù)的結(jié)構(gòu)化程度與單位樣本中的有效推理密度。

      更進(jìn)一步,團(tuán)隊(duì)還發(fā)現(xiàn)通過難度感知過濾,能實(shí)現(xiàn)極高的數(shù)據(jù)轉(zhuǎn)換效率:僅使用總量 7%(約 123K)的高難度精選子集數(shù)據(jù),即可媲美全量 1.8M 數(shù)據(jù)相當(dāng)?shù)男阅鼙憩F(xiàn)。

      因此,當(dāng)數(shù)據(jù)被有效篩選、難度與模型能力精確對齊時(shí),數(shù)據(jù)選擇本身就成為決定參數(shù)效率的核心杠桿。





      揭秘「Closed-Source Level」數(shù)據(jù)管線:完全開源的數(shù)據(jù)生產(chǎn)線



      不同于依賴黑盒 API 的傳統(tǒng)方案,MMFineReason 構(gòu)建了一套完全開源的透明且高效的 Pipeline,全流程 100% 基于開源模型。整個(gè)流程主要通過三個(gè)階段來實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)的生產(chǎn):

      1. 數(shù)據(jù)標(biāo)準(zhǔn)化:首先從源頭定義「什么是可推理任務(wù)」,對 STEM、Puzzle、圖、幾何、科學(xué)表等多領(lǐng)域數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理并統(tǒng)一 Schema,并進(jìn)行嚴(yán)格的清洗。
      2. 推理蒸餾:利用 Qwen3-VL-235B-Thinking 作為老師模型進(jìn)行推理蒸餾,并嚴(yán)格遵守四階段推理框架:「視覺感知 → 邏輯推導(dǎo) → 中間驗(yàn)證 → 結(jié)論確認(rèn)」,從而來生成詳細(xì)且具備「視覺落地」能力的 CoT 推理軌跡。
      3. 雙重過濾:為了確保訓(xùn)練的高效性,團(tuán)隊(duì)引入了雙層篩選機(jī)制,第一是正確性過濾,確保答案與推理過程嚴(yán)格一致;在剔除低質(zhì)量 CoT 的基礎(chǔ)上,進(jìn)行難度感知(Difficulty-Aware)過濾,專門篩選出對 Qwen3-VL-4B 小模型具有高「訓(xùn)練價(jià)值」的樣本,即「小模型穩(wěn)定失敗」的樣本,從而避免了無效數(shù)據(jù)的堆砌。



      最終,研究團(tuán)隊(duì)得到了 MMFineReason-1.8M(正確全量), MMFineReason-586K(正確且去掉過于簡單樣本),以及 MMFineReason-123K(正確且最困難樣本)三個(gè)高質(zhì)量數(shù)據(jù)集。

      MMFineReason-1.8M:專為「深度推理」打造的高質(zhì)量多模態(tài)數(shù)據(jù)

      與其說 MMFineReason 是一個(gè)常規(guī)的 VQA 數(shù)據(jù)集,倒不如將其定義為一個(gè)專為多模態(tài)大模型準(zhǔn)備的「硬核思維訓(xùn)練場」。在當(dāng)前多模態(tài)領(lǐng)域普遍陷入「數(shù)據(jù)饑渴」與「思維鏈斷層」的背景下,該項(xiàng)目展現(xiàn)出了極具辨識度的核心特征。

      首先,MMFineReason 在思維深度上實(shí)現(xiàn)了質(zhì)的飛躍。相比 HoneyBee 等同類數(shù)據(jù)集,其平均思維鏈(CoT)長度達(dá)到了驚人的 2,910 tokens,規(guī)模足足是前者的2.7 倍。這種長路徑推理數(shù)據(jù)的引入,本質(zhì)上是讓模型告別了簡單的「直覺判斷」,轉(zhuǎn)而掌握一套詳盡且具象的「視覺 - 邏輯」推導(dǎo)范式。



      在領(lǐng)域分布上,研究團(tuán)隊(duì)展現(xiàn)出了鮮明的去平庸化導(dǎo)向,堅(jiān)決拒絕易于「刷分」的簡單樣本,轉(zhuǎn)而深耕高難度邏輯腹地。

      數(shù)據(jù)集中,數(shù)學(xué)領(lǐng)域以 79.4% 的絕對占比強(qiáng)化了符號推理根基,涵蓋了幾何、微積分等深度學(xué)科;13.8% 的科學(xué)數(shù)據(jù)則聚焦于復(fù)雜的物理、化學(xué)圖表分析;此外,數(shù)據(jù)集還引入了 4.6% 的謎題與游戲數(shù)據(jù),通過抽象模式識別與策略博弈,不斷試探并挑戰(zhàn)開源模型的智商上限。



      圖為 MMFineReason 數(shù)據(jù)集的數(shù)據(jù)分布情況。可以看到數(shù)據(jù)集的領(lǐng)域覆蓋了數(shù)學(xué)、謎題與游戲、幾何 / 微積分、圖表與復(fù)雜科學(xué)等。

      更具深遠(yuǎn)意義的洞察在于這種高強(qiáng)度訓(xùn)練帶來的「協(xié)同提升效應(yīng)」。實(shí)驗(yàn)結(jié)果打破了專項(xiàng)訓(xùn)練會削弱通用能力的固有認(rèn)知:當(dāng)模型在 STEM 和邏輯難題上進(jìn)行深度鉆研時(shí),其在一般性 VQA 任務(wù)上的表現(xiàn)反而得到了同步增強(qiáng)。這種以點(diǎn)帶面的能力釋放,再次印證了高質(zhì)量邏輯鏈條才是驅(qū)動模型性能跨級演進(jìn)的真邏輯。

      結(jié)語與展望

      MMFineReason 的開源,證明了在多模態(tài)領(lǐng)域,當(dāng)模型架構(gòu)逐漸收斂、參數(shù)規(guī)模的邊際收益不斷下降,決定能力差距的,不再是模型有多大,而是「數(shù)據(jù)是否真的教會模型如何推理」。通過精細(xì)化的數(shù)據(jù)工程,小參數(shù)模型完全有潛力在復(fù)雜推理任務(wù)上對抗甚至超越大參數(shù)模型。

      這不是一次規(guī)模的勝利,而是Data-Centric 方法論的勝利。我們期待未來在多模態(tài)開源大模型的路上,能用更高效、更高價(jià)值的數(shù)據(jù)來促進(jìn)社區(qū)的進(jìn)步。

      目前,該項(xiàng)目已在 Huggingface 及 GitHub 全面上線,為開源社區(qū)提供了從數(shù)據(jù)到工具鏈的完整支撐。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      反轉(zhuǎn)!初中生扶摔倒老人遭索賠22萬后續(xù): 細(xì)節(jié)曝光,確實(shí)被嚇到了

      反轉(zhuǎn)!初中生扶摔倒老人遭索賠22萬后續(xù): 細(xì)節(jié)曝光,確實(shí)被嚇到了

      離離言幾許
      2026-02-20 10:17:52
      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      呂醿極限手工
      2026-02-21 07:47:57
      鄭州10歲男孩8萬壓歲錢被父親偷偷取走,用于再婚開銷,男孩無奈起訴,法院:全額返還存款及利息

      鄭州10歲男孩8萬壓歲錢被父親偷偷取走,用于再婚開銷,男孩無奈起訴,法院:全額返還存款及利息

      極目新聞
      2026-02-20 17:01:59
      摔倒被扶反索賠22萬后續(xù):律師發(fā)聲,案件焦點(diǎn)已明,賠償跑不掉了

      摔倒被扶反索賠22萬后續(xù):律師發(fā)聲,案件焦點(diǎn)已明,賠償跑不掉了

      離離言幾許
      2026-02-20 10:16:46
      阿富汗是這個(gè)世界的好老師

      阿富汗是這個(gè)世界的好老師

      名人茍或
      2026-02-20 09:01:37
      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區(qū)域直播很正常,律師:公共區(qū)域未經(jīng)允許直播同樣涉嫌侵權(quán)

      女子除夕夜在洗浴中心浴池門口被人錄像,洗浴中心稱公共區(qū)域直播很正常,律師:公共區(qū)域未經(jīng)允許直播同樣涉嫌侵權(quán)

      大象新聞
      2026-02-20 21:52:07
      毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

      毛奇、李佩霞2026年近況公布,兩人服刑結(jié)局給所有人提了醒

      娛樂督察中
      2026-02-21 03:23:47
      湛江媽祖事件持續(xù)發(fā)酵!許老板坐不住了,得罪兩廣、福建的生意人

      湛江媽祖事件持續(xù)發(fā)酵!許老板坐不住了,得罪兩廣、福建的生意人

      火山詩話
      2026-02-21 05:13:01
      特朗普暗示違法征收的關(guān)稅不退了

      特朗普暗示違法征收的關(guān)稅不退了

      財(cái)聯(lián)社
      2026-02-21 06:46:21
      太尷尬!廣東網(wǎng)友哭訴大年初一在家族群發(fā)200元紅包,退回79.17元

      太尷尬!廣東網(wǎng)友哭訴大年初一在家族群發(fā)200元紅包,退回79.17元

      火山詩話
      2026-02-20 15:31:34
      手氣爆棚!河南52歲男子打麻將連續(xù)自摸胡牌,興奮過度,突然栽倒牌桌,送醫(yī)時(shí)血壓飆升至201/115mmHg

      手氣爆棚!河南52歲男子打麻將連續(xù)自摸胡牌,興奮過度,突然栽倒牌桌,送醫(yī)時(shí)血壓飆升至201/115mmHg

      揚(yáng)子晚報(bào)
      2026-02-20 16:18:13
      當(dāng)利潤跌破4%,一場比新車更慘烈的戰(zhàn)爭開始了

      當(dāng)利潤跌破4%,一場比新車更慘烈的戰(zhàn)爭開始了

      大佬灼見
      2026-02-20 09:03:49
      東北大媽偷菜謊稱山東人后續(xù):弟弟單位同事證明,臉都丟盡了

      東北大媽偷菜謊稱山東人后續(xù):弟弟單位同事證明,臉都丟盡了

      離離言幾許
      2026-02-20 15:57:01
      王濛氣到落淚:花那么多錢,就把隊(duì)伍弄成這樣?成天鎖大門蒙眼睛

      王濛氣到落淚:花那么多錢,就把隊(duì)伍弄成這樣?成天鎖大門蒙眼睛

      風(fēng)過鄉(xiāng)
      2026-02-21 08:03:36
      Coco說她很懷念在香港的日子,很懷念和謝賢在一起的12年

      Coco說她很懷念在香港的日子,很懷念和謝賢在一起的12年

      西樓知趣雜談
      2026-02-19 21:09:49
      賈淺淺《開花》被獲得全國詩歌一等獎的詩,寫出了女性的原始欲

      賈淺淺《開花》被獲得全國詩歌一等獎的詩,寫出了女性的原始欲

      讀睡
      2026-02-20 16:29:43
      那藝娜被認(rèn)定劣跡藝人!靠說蹩腳中文,假扮俄羅斯美女走紅

      那藝娜被認(rèn)定劣跡藝人!靠說蹩腳中文,假扮俄羅斯美女走紅

      韓小娛
      2026-02-21 10:30:22
      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      中國游客貝加爾湖溺亡7人,1人來自深圳,目擊者稱2、3分鐘就沉了

      九方魚論
      2026-02-21 01:34:21
      “預(yù)見到伊朗的反應(yīng)可能構(gòu)成重大風(fēng)險(xiǎn)”,數(shù)百名美軍士兵從烏代德空軍基地撤離,五角大樓認(rèn)為戰(zhàn)爭或持續(xù)超過12天

      “預(yù)見到伊朗的反應(yīng)可能構(gòu)成重大風(fēng)險(xiǎn)”,數(shù)百名美軍士兵從烏代德空軍基地撤離,五角大樓認(rèn)為戰(zhàn)爭或持續(xù)超過12天

      極目新聞
      2026-02-21 11:21:49
      哈登18+8加盟全勝!騎士險(xiǎn)勝黃蜂豪取7連勝 米切爾32分克努33分

      哈登18+8加盟全勝!騎士險(xiǎn)勝黃蜂豪取7連勝 米切爾32分克努33分

      醉臥浮生
      2026-02-21 10:31:52
      2026-02-21 14:11:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12325文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      夫婦撿到裝20多個(gè)紅包帆布袋:4個(gè)孩子7萬多的壓歲錢

      頭條要聞

      夫婦撿到裝20多個(gè)紅包帆布袋:4個(gè)孩子7萬多的壓歲錢

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關(guān)系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財(cái)經(jīng)要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      家居
      藝術(shù)
      手機(jī)
      公開課
      軍事航空

      家居要聞

      本真棲居 愛暖伴流年

      藝術(shù)要聞

      史洪生油畫作品

      手機(jī)要聞

      vivo產(chǎn)品線結(jié)構(gòu)分析,走量最大的是這個(gè)檔次

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      硬核揭秘!福建艦“一馬當(dāng)先”底氣何在

      無障礙瀏覽 進(jìn)入關(guān)懷版