多模態(tài)推理新范式！DiffThinker：用擴(kuò)散模型「畫」出推理和答案

2026-01-07 16:13:54　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在多模態(tài)大模型（MLLMs）領(lǐng)域，思維鏈（CoT）一直被視為提升推理能力的核心技術(shù)。然而，面對復(fù)雜的長程、視覺中心任務(wù)，這種基于文本生成的推理方式正面臨瓶頸：文本難以精確追蹤視覺信息的變化。形象地說，模型不知道自己想到哪一步了，對應(yīng)圖像是什么狀態(tài)。

盡管近期的「Thinking with Image」范式可以通過工具等對圖像進(jìn)行操作，但它們難以擴(kuò)展到更復(fù)雜的長程任務(wù)，且在多輪交互中本身開銷巨大。

近日，來自上海人工智能實(shí)驗(yàn)室、南京大學(xué)、香港中文大學(xué)和上海交通大學(xué)的研究團(tuán)隊(duì)提出了一種全新的生成式多模態(tài)推理（Generative Multimodal Reasoning）范式，并發(fā)布了模型DiffThinker

DiffThinker 徹底打破了「多模態(tài)輸入 -> 文本輸出」的傳統(tǒng)定式，將推理過程重構(gòu)為圖像到圖像（Image-to-Image）的生成任務(wù)。通過擴(kuò)散模型（Diffusion Models），DiffThinker 能夠在視覺空間中直接生成推理路徑。

實(shí)驗(yàn)結(jié)果令人驚訝：在包含長程規(guī)劃、組合優(yōu)化、約束滿足、空間推理等 7 項(xiàng)視覺中心的復(fù)雜任務(wù)中，DiffThinker 的表現(xiàn)顯著優(yōu)于包括GPT-5 (+314.2%)和Gemini-3-Flash (+111.6%)在內(nèi)的頂尖閉源模型，以及經(jīng)過相同數(shù)據(jù)微調(diào)的 Qwen3-VL-32B 基線 (+39.0%)。

論文標(biāo)題：DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
論文地址
https://arxiv.org/abs/2512.24165
項(xiàng)目主頁
https://diffthinker-project.github.io
代碼倉庫
https://github.com/lcqysl/DiffThinker

01 從「以文思考」到「以圖思考」

現(xiàn)有的多模態(tài)大模型在處理視覺推理任務(wù)時(shí)，難以追蹤視覺信息的變化。比如在空間導(dǎo)航任務(wù)（VSP、Maze 等）中，模型僅靠語言分析路徑，但輸入圖像不變，路徑一長就很容易「看走眼」，不知道自己已經(jīng)走到了哪。又比如拼圖任務(wù)，模型如果不能直接對拼圖操作，很難憑空想象出答案。即便是最新的「Thinking with Image」范式，也往往依賴于多輪對話和工具調(diào)用，導(dǎo)致推理鏈路極長，難以擴(kuò)展到復(fù)雜場景。

研究團(tuán)隊(duì)還在項(xiàng)目主頁提供了幾個(gè)小游戲，以直觀理解人與 MLLM 的思維范式差異。

那么，為什么不能讓模型直接「看」著問題，把答案「畫」出來？

DiffThinker 提出的核心理念正是如此。研究團(tuán)隊(duì)認(rèn)為，多模態(tài)推理不應(yīng)局限于符號空間，而應(yīng)回歸視覺空間，利用擴(kuò)散模型直接生成答案。具體來說，DiffThinker 基于 Qwen-Image-Edit，配合 Flow Matching 訓(xùn)練直接用圖像生產(chǎn)答案。

02 DiffThinker 的四大核心特性

作為全新的生成式推理范式，DiffThinker 展現(xiàn)出了傳統(tǒng) MLLM 難以企及的四大特性：

高效推理（Efficient Reasoning）相比于 MLLM 動(dòng)輒生成數(shù)千個(gè) Token 的長思維鏈，DiffThinker 在訓(xùn)練和推理效率上均表現(xiàn)出色，且準(zhǔn)確率更高。

可控推理（Controllable Reasoning）MLLM 的輸出長度不可預(yù)測，常出現(xiàn)過長思維鏈甚至輸出崩潰導(dǎo)致死循環(huán)。而 DiffThinker 通過固定步數(shù)的歐拉求解器，能夠以確定的計(jì)算預(yù)算完成推理，不受任務(wù)邏輯復(fù)雜度的干擾。

原生并行推理（Native Parallel Reasoning）這是擴(kuò)散模型獨(dú)有的優(yōu)勢。在推理時(shí)，DiffThinker 能夠在視覺空間中同時(shí)探索多條潛在路徑，并隨著去噪過程逐步收斂到最優(yōu)解。這使得模型可以「邊畫邊推理」，更直觀。

協(xié)同推理（Collaborative Reasoning）DiffThinker 還可以與 MLLM 合作。它生成多個(gè)候選視覺解，再由 MLLM 進(jìn)行邏輯驗(yàn)證。實(shí)驗(yàn)顯示，這種「DiffThinker 生成 + MLLM 驗(yàn)證」的組合，性能實(shí)現(xiàn)「1+1>2」，超越了任何單一模型。

03 實(shí)驗(yàn)結(jié)果：碾壓級的性能

研究團(tuán)隊(duì)在四個(gè)領(lǐng)域的七大任務(wù)上進(jìn)行了系統(tǒng)評測，包括：

序列規(guī)劃：VSP，VSP-Super，Maze（迷宮）
組合優(yōu)化：TSP（旅行商問題）
約束滿足：Sudoku（數(shù)獨(dú)）
空間配置：Jigsaw（拼圖），VisPuzzle

主要結(jié)果如下：

DiffThinker 在所有任務(wù)上的平均得分高達(dá)87.4，而 GPT-5 僅為 21.1，Gemini-3-Flash 為 41.3。同數(shù)據(jù)訓(xùn)練的 Qwen3-VL-32B 也只有62.9。

04 視頻生成 vs 圖像生成

既然是視覺推理，用視頻模型（Video Generation）會(huì)不會(huì)更好？

團(tuán)隊(duì)基于 Wan2.2-TI2V-5B 開發(fā)了 DiffThinker-Video 版本。結(jié)果發(fā)現(xiàn)，雖然視頻能展示動(dòng)態(tài)過程，但在推理準(zhǔn)確率上反而不如圖像生成模型，且推理時(shí)間增加了近一倍（1.1s vs 2.0s）。這表明，在當(dāng)前的算力與模型架構(gòu)下，「以圖思考」仍是比「以視頻思考」更高效的路徑。

05 結(jié)語

DiffThinker 的出現(xiàn)，標(biāo)志著生成式多模態(tài)推理（Generative Multimodal Reasoning）時(shí)代的開啟。它證明了擴(kuò)散模型不僅能畫畫，還能進(jìn)行嚴(yán)密的邏輯推理。

對于長程、視覺中心的復(fù)雜任務(wù)，將推理過程從「文本流」轉(zhuǎn)變?yōu)椤敢曈X流」，或許正是通往下一代通用人工智能的關(guān)鍵一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.