首個會深度思考的擴散模型來了!
拋棄自回歸范式,一舉成為世界上生成速度最快的模型。
你瞅瞅,對比之下傳統自回歸的“打字機模式”(按順序一個個token往外吐)是不是就有點像烏龜了:

實際測評顯示,這款名為Mercury 2的擴散推理LLM在英偉達GPU上可實現1009個tokens/s。
這個速度整整比GPT-5(mini)和Claude-4.5(haiku)這些傳統模型快了5倍。
![]()
消息一出,英偉達第一時間跑來祝賀了(當然也可能是因為它投了Mercury 2背后的公司):
![]()
一眾網友也紛紛坐不住,畢竟最近很火的“龍蝦們”也少不了對速度的極限追求:
![]()
還有人已經開始懷念自回歸曾經的風光了(doge)。
![]()
so,Mercury 2是誰?它又是如何突破速度瓶頸的呢?
不止是快,還穩
原理其實很簡單。
前面已經說了,傳統自回歸就像打字機一樣,一次只能處理一個token,且必須按照從左到右的順序。
但擴散模型Mercury 2的工作方式更像一位編輯——
你不是在看它打字,而是看它拿到一份草稿后,立刻拿著紅筆在整頁紙上同時圈改。
換言之,一次生成答案草稿再整體編輯。
這種“并行優化”機制,使得Mercury 2不需要等待前一個字的結果就能生成下一個字,因此響應速度極快,延遲不再與輸出長度成正比。
最終,Mercury 2能將生成速度提升5倍以上,且速度曲線截然不同。
瞅瞅,在第三方測評中,其輸出速度可謂一騎絕塵。
![]()
和市面主流的頂尖模型比,速度也是獨一檔的存在。
![]()
而且不止是快,它在性能、價格方面都具有一定優勢。
延遲低至1.7s的情況下,在GPQA(科學問答)、LCB(編程)、AIME(數學)等多個基準測試中,Mercury 2的得分普遍高于或持平于那些速度較慢的“小型/輕量級”模型(如GPT-5 Nano, Claude 4.5 Haiku)。
甚至在AIME上的得分超過了公認的“性能怪獸”Gemini 3 Flash(推理版) 。
這說明Mercury 2在保持極高速度的同時,并不以犧牲智商為代價。
![]()
它目前支持128K上下文,輸入價格為每百萬token 0.25美元(約合人民幣1.7元),輸出價格為每百萬token 0.75美元(約合人民幣5.2元)。
綜合速度與價格,Mercury 2也保持了較高性價比。
![]()
官方表示,Mercury 2的這種速度優勢改變了推理。
- 如今,更高的智能意味著更多的test-time計算——更長的鏈、更多的樣本、更多的重試,而這直接以延遲和成本為代價。基于擴散的推理能夠在實時延遲預算內實現推理級別的質量。
背后公司一開始就押注擴散模型
最后介紹一下Mercury 2背后的公司及團隊。
它是由Inception Labs這家成立于2024年的硅谷初創公司推出的。
從一開始這家公司就力押擴散模型,其核心使命為——
用全新的、基于擴散/diffusion的生成機制替代傳統的自回歸Transformer模型,從根本上突破速度與成本瓶頸。
他們認為,傳統自回歸模型的缺陷不言自明——延遲和成本會隨著token數量的增加而增加。
而擴散模型采用由粗到精的生成過程。它并非逐個提交數據,而是通過少量步驟并行迭代地細化輸出。這使得在生成過程中可以進行修改,并帶來截然不同的速度-成本曲線。一言以蔽之:
- 人工智能不應該像單向打字機那樣運作,而應該更像一個編輯。
基于此,他們開始在Mercury系列中踐行這一理念。
2025年2月,發布全球首個基于擴散模型的商業級語言模型——初代Mercury,一開始就把生成速度拉到傳統的5倍以上,而且同一時間還推出編程助手Mercury Coder。
一年之后,升級版Mercury 2問世,在推理和多智能體日益進入主流視線的今天,帶來了更多可能。
![]()
事實上,早在2019年,這家公司的聯創兼CEO Stefano Ermon就開始投身擴散模型的研究了。
時任斯坦福大學計算機科學教授的Stefano Ermon,很早就思忖著將擴散模型應用于內容生成。
當時主流的圖像生成模型還在使用GAN(生成對抗網絡),但他和團隊認為結果“不夠好”,于是開始嘗試應用Diffusion。
而在看到Diffusion的效果不錯后(后來Midjourney、DALL-E等都是用這種方法),他們開始將研究目光轉向文本和代碼生成。
- 圖像由連續的像素構成,而文本由離散的token構成。之前成功的擴散模型理論(如去噪得分匹配)是建立在連續空間上的,無法直接遷移到文本。
于是在2023年,他和團隊發表了一篇關鍵性論文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,里面介紹了一種名為Score Entropy Discrete Diffusion models(SEDD)的模型。
該模型創新性提出了“分數熵”(score entropy)這一全新損失函數,它巧妙地將連續空間的分數匹配理論擴展到了離散數據領域。
這使得擴散模型能夠像理解圖像一樣,去理解和生成語言。
![]()
論文結果表明,SEDD的表現明顯優于當時已有的語言模型,困惑度比未退火(未使用“動態調整溫度”這個優化技巧)的GPT-2好6-8倍。
(注:后來這篇論文還獲得了ICML 2024最佳論文獎)
見此,Stefano Ermon決定通過創業將技術價值放大。
于是在2024年夏天,他邀請美國加利福尼亞大學洛杉磯分校教授Aditya Grover(左)和美國康奈爾大學教授Volodymyr Kuleshov(右)加入Inception Labs。
![]()
去年11月,這家公司還宣布獲得了5000萬美元融資,而且投資陣容相當豪華。
除了NVentures(英偉達風投部門)、M12(微軟旗下風險基金)、Menlo Ventures (領投方、知名長期風投機構)等明星機構,還不乏吳恩達、卡帕西這些AI大佬。
可以說,堅持走擴散模型路子的Inception Labs始終穩扎穩打并獲得市場支持。
最后順便一提,Mercury 2目前暫無開源計劃,不過其API全面兼容OpenAI標準。
感興趣的朋友也可親自上手一試了。
體驗地址:
https://chat.inceptionlabs.ai/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.