<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      多模態(tài)推理新范式!DiffThinker:用擴(kuò)散模型「畫」出推理和答案

      0
      分享至



      在多模態(tài)大模型(MLLMs)領(lǐng)域,思維鏈(CoT)一直被視為提升推理能力的核心技術(shù)。然而,面對復(fù)雜的長程、視覺中心任務(wù),這種基于文本生成的推理方式正面臨瓶頸:文本難以精確追蹤視覺信息的變化。形象地說,模型不知道自己想到哪一步了,對應(yīng)圖像是什么狀態(tài)。

      盡管近期的「Thinking with Image」范式可以通過工具等對圖像進(jìn)行操作,但它們難以擴(kuò)展到更復(fù)雜的長程任務(wù),且在多輪交互中本身開銷巨大。

      近日,來自上海人工智能實(shí)驗(yàn)室、南京大學(xué)、香港中文大學(xué)和上海交通大學(xué)的研究團(tuán)隊(duì)提出了一種全新的生成式多模態(tài)推理(Generative Multimodal Reasoning)范式,并發(fā)布了模型DiffThinker

      DiffThinker 徹底打破了「多模態(tài)輸入 -> 文本輸出」的傳統(tǒng)定式,將推理過程重構(gòu)為圖像到圖像(Image-to-Image)的生成任務(wù)。通過擴(kuò)散模型(Diffusion Models),DiffThinker 能夠在視覺空間中直接生成推理路徑。

      實(shí)驗(yàn)結(jié)果令人驚訝:在包含長程規(guī)劃、組合優(yōu)化、約束滿足、空間推理等 7 項(xiàng)視覺中心的復(fù)雜任務(wù)中,DiffThinker 的表現(xiàn)顯著優(yōu)于包括GPT-5 (+314.2%)和Gemini-3-Flash (+111.6%)在內(nèi)的頂尖閉源模型,以及經(jīng)過相同數(shù)據(jù)微調(diào)的 Qwen3-VL-32B 基線 (+39.0%)。

      • 論文標(biāo)題:DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
      • 論文地址
      • https://arxiv.org/abs/2512.24165
      • 項(xiàng)目主頁
      • https://diffthinker-project.github.io
      • 代碼倉庫
      • https://github.com/lcqysl/DiffThinker



      01 從「以文思考」到「以圖思考」

      現(xiàn)有的多模態(tài)大模型在處理視覺推理任務(wù)時(shí),難以追蹤視覺信息的變化。比如在空間導(dǎo)航任務(wù)(VSP、Maze 等)中,模型僅靠語言分析路徑,但輸入圖像不變,路徑一長就很容易「看走眼」,不知道自己已經(jīng)走到了哪。又比如拼圖任務(wù),模型如果不能直接對拼圖操作,很難憑空想象出答案。即便是最新的「Thinking with Image」范式,也往往依賴于多輪對話和工具調(diào)用,導(dǎo)致推理鏈路極長,難以擴(kuò)展到復(fù)雜場景。

      研究團(tuán)隊(duì)還在項(xiàng)目主頁提供了幾個(gè)小游戲,以直觀理解人與 MLLM 的思維范式差異。

      那么,為什么不能讓模型直接「看」著問題,把答案「畫」出來?

      DiffThinker 提出的核心理念正是如此。研究團(tuán)隊(duì)認(rèn)為,多模態(tài)推理不應(yīng)局限于符號空間,而應(yīng)回歸視覺空間,利用擴(kuò)散模型直接生成答案。具體來說,DiffThinker 基于 Qwen-Image-Edit,配合 Flow Matching 訓(xùn)練直接用圖像生產(chǎn)答案。



      02 DiffThinker 的四大核心特性


      作為全新的生成式推理范式,DiffThinker 展現(xiàn)出了傳統(tǒng) MLLM 難以企及的四大特性:

      • 高效推理(Efficient Reasoning)相比于 MLLM 動(dòng)輒生成數(shù)千個(gè) Token 的長思維鏈,DiffThinker 在訓(xùn)練和推理效率上均表現(xiàn)出色,且準(zhǔn)確率更高。



      • 可控推理(Controllable Reasoning)MLLM 的輸出長度不可預(yù)測,常出現(xiàn)過長思維鏈甚至輸出崩潰導(dǎo)致死循環(huán)。而 DiffThinker 通過固定步數(shù)的歐拉求解器,能夠以確定的計(jì)算預(yù)算完成推理,不受任務(wù)邏輯復(fù)雜度的干擾。

      • 原生并行推理(Native Parallel Reasoning)這是擴(kuò)散模型獨(dú)有的優(yōu)勢。在推理時(shí),DiffThinker 能夠在視覺空間中同時(shí)探索多條潛在路徑,并隨著去噪過程逐步收斂到最優(yōu)解。這使得模型可以「邊畫邊推理」,更直觀。



      • 協(xié)同推理(Collaborative Reasoning)DiffThinker 還可以與 MLLM 合作。它生成多個(gè)候選視覺解,再由 MLLM 進(jìn)行邏輯驗(yàn)證。實(shí)驗(yàn)顯示,這種「DiffThinker 生成 + MLLM 驗(yàn)證」的組合,性能實(shí)現(xiàn)「1+1>2」,超越了任何單一模型。



      03 實(shí)驗(yàn)結(jié)果:碾壓級的性能


      研究團(tuán)隊(duì)在四個(gè)領(lǐng)域的七大任務(wù)上進(jìn)行了系統(tǒng)評測,包括:

      • 序列規(guī)劃:VSP,VSP-Super,Maze(迷宮)
      • 組合優(yōu)化:TSP(旅行商問題)
      • 約束滿足:Sudoku(數(shù)獨(dú))
      • 空間配置:Jigsaw(拼圖),VisPuzzle

      主要結(jié)果如下:



      DiffThinker 在所有任務(wù)上的平均得分高達(dá)87.4,而 GPT-5 僅為 21.1,Gemini-3-Flash 為 41.3。同數(shù)據(jù)訓(xùn)練的 Qwen3-VL-32B 也只有62.9。

      04 視頻生成 vs 圖像生成


      既然是視覺推理,用視頻模型(Video Generation)會(huì)不會(huì)更好?

      團(tuán)隊(duì)基于 Wan2.2-TI2V-5B 開發(fā)了 DiffThinker-Video 版本。結(jié)果發(fā)現(xiàn),雖然視頻能展示動(dòng)態(tài)過程,但在推理準(zhǔn)確率上反而不如圖像生成模型,且推理時(shí)間增加了近一倍(1.1s vs 2.0s)。這表明,在當(dāng)前的算力與模型架構(gòu)下,「以圖思考」仍是比「以視頻思考」更高效的路徑。

      05 結(jié)語


      DiffThinker 的出現(xiàn),標(biāo)志著生成式多模態(tài)推理(Generative Multimodal Reasoning)時(shí)代的開啟。它證明了擴(kuò)散模型不僅能畫畫,還能進(jìn)行嚴(yán)密的邏輯推理。

      對于長程、視覺中心的復(fù)雜任務(wù),將推理過程從「文本流」轉(zhuǎn)變?yōu)椤敢曈X流」,或許正是通往下一代通用人工智能的關(guān)鍵一步。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      臨走前李在明涉臺表述更進(jìn)一步,并提四大請求,中方應(yīng)對很有格局

      臨走前李在明涉臺表述更進(jìn)一步,并提四大請求,中方應(yīng)對很有格局

      博覽歷史
      2026-01-08 18:45:46
      隨著國足0-0伊拉克,澳大利亞2-1泰國,U23亞洲杯最新積分榜出爐

      隨著國足0-0伊拉克,澳大利亞2-1泰國,U23亞洲杯最新積分榜出爐

      侃球熊弟
      2026-01-08 23:54:10
      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      小熊侃史
      2026-01-06 11:17:00
      新華社官宣:轟-20和殲-36的正式亮相非常值得期待

      新華社官宣:轟-20和殲-36的正式亮相非常值得期待

      烽火觀天下
      2026-01-08 11:52:17
      朝鮮不會(huì)成為第二個(gè)委內(nèi)瑞拉!因?yàn)槌r有兩個(gè)后盾

      朝鮮不會(huì)成為第二個(gè)委內(nèi)瑞拉!因?yàn)槌r有兩個(gè)后盾

      米君文史
      2026-01-07 10:01:47
      丹麥國防部:若美國武力奪取格陵蘭島 丹麥?zhǔn)勘伞跋乳_槍再請示”

      丹麥國防部:若美國武力奪取格陵蘭島 丹麥?zhǔn)勘伞跋乳_槍再請示”

      財(cái)聯(lián)社
      2026-01-08 14:40:05
      張本智和真要沖擊世界第1?三局僅讓向鵬拿19分 肩膀痊愈后更強(qiáng)了

      張本智和真要沖擊世界第1?三局僅讓向鵬拿19分 肩膀痊愈后更強(qiáng)了

      顏小白的籃球夢
      2026-01-08 21:17:32
      大陸重拳出擊,判蔡正元的法官被列為臺獨(dú)幫兇,蔡正元等人有救了

      大陸重拳出擊,判蔡正元的法官被列為臺獨(dú)幫兇,蔡正元等人有救了

      時(shí)尚的弄潮
      2026-01-08 07:08:57
      女子看胃病竟死于心臟手術(shù)?南通市第一人民醫(yī)院被指多項(xiàng)違規(guī),釀一級甲等醫(yī)療事故

      女子看胃病竟死于心臟手術(shù)?南通市第一人民醫(yī)院被指多項(xiàng)違規(guī),釀一級甲等醫(yī)療事故

      上游新聞
      2026-01-08 19:57:05
      當(dāng)石油被搶后,西方普遍認(rèn)為北京只能認(rèn)栽,怎料中方一招逆轉(zhuǎn)局面

      當(dāng)石油被搶后,西方普遍認(rèn)為北京只能認(rèn)栽,怎料中方一招逆轉(zhuǎn)局面

      小lu侃侃而談
      2026-01-02 19:54:47
      美國富人可訂制超級嬰兒,培育無敵后代?還沒生就知道基因,優(yōu)中選優(yōu)...

      美國富人可訂制超級嬰兒,培育無敵后代?還沒生就知道基因,優(yōu)中選優(yōu)...

      英國那些事兒
      2026-01-07 23:23:43
      字母哥放話永不申請交易:想在雄鹿打完生涯 除非他們不再想要我

      字母哥放話永不申請交易:想在雄鹿打完生涯 除非他們不再想要我

      羅說NBA
      2026-01-08 22:56:51
      42+35+33!33+32+30!NBA一生之?dāng)痴Q生,最佳新秀要失去懸念了

      42+35+33!33+32+30!NBA一生之?dāng)痴Q生,最佳新秀要失去懸念了

      世界體育圈
      2026-01-08 10:20:39
      結(jié)果不錯(cuò)但場面難看,安東尼奧臨場現(xiàn)“敗筆”,李昊拯救U22國足

      結(jié)果不錯(cuò)但場面難看,安東尼奧臨場現(xiàn)“敗筆”,李昊拯救U22國足

      中國足球的那些事兒
      2026-01-09 00:45:57
      忍無可忍!籃球?qū)<彝磁褐辈グ岬讲耸袌觯珻BA早晚要出事

      忍無可忍!籃球?qū)<彝磁褐辈グ岬讲耸袌觯珻BA早晚要出事

      體育哲人
      2026-01-08 12:46:07
      俄方譴責(zé)美扣押俄油輪,要求確保俄公民受到人道對待

      俄方譴責(zé)美扣押俄油輪,要求確保俄公民受到人道對待

      澎湃新聞
      2026-01-08 02:46:15
      中國1號公告已出,日本右翼開始冒汗,特朗普憂心:總統(tǒng)位恐不保

      中國1號公告已出,日本右翼開始冒汗,特朗普憂心:總統(tǒng)位恐不保

      興史興談
      2026-01-08 02:18:00
      單親媽媽柬埔寨尋子一個(gè)月無果,19歲小伙疑被16萬元轉(zhuǎn)賣,與母親視頻通話時(shí)曾按“酒窩”暗示“救我”

      單親媽媽柬埔寨尋子一個(gè)月無果,19歲小伙疑被16萬元轉(zhuǎn)賣,與母親視頻通話時(shí)曾按“酒窩”暗示“救我”

      極目新聞
      2026-01-08 21:08:49
      72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場根基正在爛根

      72%煙草倒掛逼哭零售戶!寧可不訂也不賠錢,市場根基正在爛根

      老特有話說
      2026-01-07 00:40:03
      這次不一樣了:美國扣押俄國油輪,最受傷的不是俄羅斯

      這次不一樣了:美國扣押俄國油輪,最受傷的不是俄羅斯

      十柱
      2026-01-08 12:55:50
      2026-01-09 04:20:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12080文章數(shù) 142532關(guān)注度
      往期回顧 全部

      科技要聞

      智譜拿下“全球大模型第一股”,憑什么

      頭條要聞

      采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

      頭條要聞

      采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

      體育要聞

      世乒賽銀牌得主,說自己夢里都是孫穎莎

      娛樂要聞

      抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

      財(cái)經(jīng)要聞

      微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

      汽車要聞

      從量變到"智"變 吉利在CES打出了五張牌

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      本地
      房產(chǎn)
      公開課

      藝術(shù)要聞

      震撼!阿森西奧的人體繪畫揭示情感的深淵!

      家居要聞

      理性主義 冷調(diào)自由居所

      本地新聞

      1986-2026,一通電話的時(shí)空旅程

      房產(chǎn)要聞

      豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 91亚洲精品国偷拍自产在线观看| 国产一区二区午夜福利久久| 精品久久久中文字幕人妻| 无码电影在线观看一区二区三区| 国产在线98福利播放视频| 91人妻人人澡人人爽人人精品| 国产菊眼屁股无码免费| 国产av无码专区亚洲aⅴ| 91国产超碰在线观看| 人妻少妇精品无码专区二区| 婷婷四虎东京热无码群交双飞视频| 亚洲天堂人妻| 国精产品一区一区三区有限公司 | 岛国无码AV| 成人精品一区日本无码网| 午夜高清无码| 国产在线一区二区不卡| 亚洲欧洲美洲无码精品va | 亚洲∧V| 中文字幕日本人妻| 国产成人亚洲日韩欧美婷婷亚片 | 最新中文无码字字幕在线| 四虎成人精品无码永久在线| 国产人妻久久精品一区二区三区| 久久久中文| 久久久久国产一区二区| 久久se精品一区二区三区| 香港三级澳门三级人妇| 日韩av爽爽爽久久久久久| 中文字幕第一页国产| 免费无码又爽又黄又刺激网站| 在线无码国产精品亚洲а∨| 久久影院午夜理论片无码| 中文字幕在线看视频一区二区三区| 久久久亚洲欧洲日产国码二区| 鄱阳县| 免费无遮挡无码永久在线观看视频| 国产成人精品777777| 久久久无码一区二区三区| 国产乱妇无码毛片A片在线看下载| jizzjizz亚洲|