![]()
在多模態(tài)大模型(MLLMs)領(lǐng)域,思維鏈(CoT)一直被視為提升推理能力的核心技術(shù)。然而,面對復(fù)雜的長程、視覺中心任務(wù),這種基于文本生成的推理方式正面臨瓶頸:文本難以精確追蹤視覺信息的變化。形象地說,模型不知道自己想到哪一步了,對應(yīng)圖像是什么狀態(tài)。
盡管近期的「Thinking with Image」范式可以通過工具等對圖像進(jìn)行操作,但它們難以擴(kuò)展到更復(fù)雜的長程任務(wù),且在多輪交互中本身開銷巨大。
近日,來自上海人工智能實(shí)驗(yàn)室、南京大學(xué)、香港中文大學(xué)和上海交通大學(xué)的研究團(tuán)隊(duì)提出了一種全新的生成式多模態(tài)推理(Generative Multimodal Reasoning)范式,并發(fā)布了模型DiffThinker
DiffThinker 徹底打破了「多模態(tài)輸入 -> 文本輸出」的傳統(tǒng)定式,將推理過程重構(gòu)為圖像到圖像(Image-to-Image)的生成任務(wù)。通過擴(kuò)散模型(Diffusion Models),DiffThinker 能夠在視覺空間中直接生成推理路徑。
實(shí)驗(yàn)結(jié)果令人驚訝:在包含長程規(guī)劃、組合優(yōu)化、約束滿足、空間推理等 7 項(xiàng)視覺中心的復(fù)雜任務(wù)中,DiffThinker 的表現(xiàn)顯著優(yōu)于包括GPT-5 (+314.2%)和Gemini-3-Flash (+111.6%)在內(nèi)的頂尖閉源模型,以及經(jīng)過相同數(shù)據(jù)微調(diào)的 Qwen3-VL-32B 基線 (+39.0%)。
- 論文標(biāo)題:DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
- 論文地址
- https://arxiv.org/abs/2512.24165
- 項(xiàng)目主頁
- https://diffthinker-project.github.io
- 代碼倉庫
- https://github.com/lcqysl/DiffThinker
![]()
01 從「以文思考」到「以圖思考」
現(xiàn)有的多模態(tài)大模型在處理視覺推理任務(wù)時(shí),難以追蹤視覺信息的變化。比如在空間導(dǎo)航任務(wù)(VSP、Maze 等)中,模型僅靠語言分析路徑,但輸入圖像不變,路徑一長就很容易「看走眼」,不知道自己已經(jīng)走到了哪。又比如拼圖任務(wù),模型如果不能直接對拼圖操作,很難憑空想象出答案。即便是最新的「Thinking with Image」范式,也往往依賴于多輪對話和工具調(diào)用,導(dǎo)致推理鏈路極長,難以擴(kuò)展到復(fù)雜場景。
研究團(tuán)隊(duì)還在項(xiàng)目主頁提供了幾個(gè)小游戲,以直觀理解人與 MLLM 的思維范式差異。
那么,為什么不能讓模型直接「看」著問題,把答案「畫」出來?
DiffThinker 提出的核心理念正是如此。研究團(tuán)隊(duì)認(rèn)為,多模態(tài)推理不應(yīng)局限于符號空間,而應(yīng)回歸視覺空間,利用擴(kuò)散模型直接生成答案。具體來說,DiffThinker 基于 Qwen-Image-Edit,配合 Flow Matching 訓(xùn)練直接用圖像生產(chǎn)答案。
![]()
02 DiffThinker 的四大核心特性
作為全新的生成式推理范式,DiffThinker 展現(xiàn)出了傳統(tǒng) MLLM 難以企及的四大特性:
- 高效推理(Efficient Reasoning)相比于 MLLM 動(dòng)輒生成數(shù)千個(gè) Token 的長思維鏈,DiffThinker 在訓(xùn)練和推理效率上均表現(xiàn)出色,且準(zhǔn)確率更高。
![]()
- 可控推理(Controllable Reasoning)MLLM 的輸出長度不可預(yù)測,常出現(xiàn)過長思維鏈甚至輸出崩潰導(dǎo)致死循環(huán)。而 DiffThinker 通過固定步數(shù)的歐拉求解器,能夠以確定的計(jì)算預(yù)算完成推理,不受任務(wù)邏輯復(fù)雜度的干擾。
- 原生并行推理(Native Parallel Reasoning)這是擴(kuò)散模型獨(dú)有的優(yōu)勢。在推理時(shí),DiffThinker 能夠在視覺空間中同時(shí)探索多條潛在路徑,并隨著去噪過程逐步收斂到最優(yōu)解。這使得模型可以「邊畫邊推理」,更直觀。
![]()
- 協(xié)同推理(Collaborative Reasoning)DiffThinker 還可以與 MLLM 合作。它生成多個(gè)候選視覺解,再由 MLLM 進(jìn)行邏輯驗(yàn)證。實(shí)驗(yàn)顯示,這種「DiffThinker 生成 + MLLM 驗(yàn)證」的組合,性能實(shí)現(xiàn)「1+1>2」,超越了任何單一模型。
![]()
03 實(shí)驗(yàn)結(jié)果:碾壓級的性能
研究團(tuán)隊(duì)在四個(gè)領(lǐng)域的七大任務(wù)上進(jìn)行了系統(tǒng)評測,包括:
- 序列規(guī)劃:VSP,VSP-Super,Maze(迷宮)
- 組合優(yōu)化:TSP(旅行商問題)
- 約束滿足:Sudoku(數(shù)獨(dú))
- 空間配置:Jigsaw(拼圖),VisPuzzle
主要結(jié)果如下:
![]()
DiffThinker 在所有任務(wù)上的平均得分高達(dá)87.4,而 GPT-5 僅為 21.1,Gemini-3-Flash 為 41.3。同數(shù)據(jù)訓(xùn)練的 Qwen3-VL-32B 也只有62.9。
04 視頻生成 vs 圖像生成
既然是視覺推理,用視頻模型(Video Generation)會(huì)不會(huì)更好?
團(tuán)隊(duì)基于 Wan2.2-TI2V-5B 開發(fā)了 DiffThinker-Video 版本。結(jié)果發(fā)現(xiàn),雖然視頻能展示動(dòng)態(tài)過程,但在推理準(zhǔn)確率上反而不如圖像生成模型,且推理時(shí)間增加了近一倍(1.1s vs 2.0s)。這表明,在當(dāng)前的算力與模型架構(gòu)下,「以圖思考」仍是比「以視頻思考」更高效的路徑。
05 結(jié)語
DiffThinker 的出現(xiàn),標(biāo)志著生成式多模態(tài)推理(Generative Multimodal Reasoning)時(shí)代的開啟。它證明了擴(kuò)散模型不僅能畫畫,還能進(jìn)行嚴(yán)密的邏輯推理。
對于長程、視覺中心的復(fù)雜任務(wù),將推理過程從「文本流」轉(zhuǎn)變?yōu)椤敢曈X流」,或許正是通往下一代通用人工智能的關(guān)鍵一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.