網易首頁 > 網易號 > 正文申請入駐

美團新模型LongCat-Flash-Thinking-2601重思考模式拉風，附一手對比實測

2026-01-20 08:18:27　來源: AI先鋒官

北京舉報

分享至

作者｜子川

來源｜AI先鋒官

近日，美團重磅更新并開源自家模型LongCat-Flash-Thinking-2601。

據介紹，此次發布的模型是LongCat-Flash-Thinking模型的升級版，擁有 5600 億個參數，并基于的 MoE 架構構建。

LongCat-Flash-Thinking-2601 最大的不同，就在于它引入了重思考模式（Heavy Thinking Mode）。

簡單來說，這個模式讓模型能同時啟動 8 個大腦思考，從不同角度和深度推理同一個問題，最后總結出一個更全面、更可靠的結論。

給大家看一個簡單的例子就明白了。

提示詞：1+1為什么不等于2

可以看到，重思考模式相當于使用了8個模型同時進行推理工作，最后的給出的8個答案在進行反復驗證，最終會得到一個最終解。

除此之外，LongCat團隊在新模型中加入了額外的強化學習環節，針對性打磨模型的總結歸納能力，從而讓LongCat-Flash-Thinking-2601實現“想清楚再行動”的結果。

不過在體驗的時候，由于相當8款模型同時在推理，所以它的上下文非常容易耗光，會經常返回“當前對話上下文過長，建議精簡輸入后重試”。

那這款模型表現到底如何？我們先來看LongCat-Flash-Thinking-2601的紙面實力。

首先是大家最關注的編程能力上，LCB 評測拿到82.8 分，OIBench EN 評測獲47.7 分，這些成績處于同類模型第一梯隊。

數學推理方面，開啟重思考模式后更猛。

AIME-25 評測中取得100.0 分（滿分），IMO-AnswerBench 中以86.8 分達到當前 SOTA。

智能體工具調用上，τ2-Bench 評測88.2 分，VitaBench 評測29.3 分，均為開源 SOTA 水平。

智能體搜索方面，BrowseComp 任務73.1 分（全模型最優），RW Search 評測79.5 分。

最關鍵的是什么？在工具調用的泛化能力上，LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。

這一連串的SOTA似乎有點東西，那它的實際效果到底如何？老規矩，我們直接上手實測。

此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

提示詞：

創建一個 3D HTML 山脈場景，包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色，并可切換等高線顯示。

LongCat-Flash-Thinking-2601：

Kimi K2 Thinking ：

DeepSeek-V3.2：

可以明顯的看到LongCat-Flash-Thinking-2601的缺陷，對“河流”的幾何理解出現了偏差。它未能生成自然蜿蜒的水體，而是生成了一個圓柱體結構，導致視覺上更像是一根橫亙在山間的“水管”。

而且DeepSeek-V3.2出現了嚴重的幻覺，模型似乎在坐標系構建上徹底迷失，原本應是連綿起伏的山脈和流動的河水，被渲染成了兩條細長的線段。

功能較為完善的只有Kimi K2 Thinking ，山脈起伏、樹木點綴、動態的云朵與太陽一應俱全，光照邏輯也基本成立，但這也不得不吐槽一下，河流也是一條大水管！

或許這條題太難，給它們減低一下難度，做一個簡單的可視化登錄頁面。

提示詞：請創建一個現代化的登錄頁面，包含以下功能：

- 郵箱和密碼輸入框

- 登錄按鈕

- "記住我"和"忘記密碼"選項

- Google第三方登錄

- 注冊鏈接

要求：深色主題，未來科技風格，居中布局，良好的用戶體驗。

LongCat-Flash-Thinking-2601：

Kimi K2 Thinking ：

DeepSeek-V3.2：

這次終于扳回一城，對于簡單的登錄頁面的UI，目前的模型已經是手拿把恰了，效果都大差不差，登錄、注冊等功能都有，主要是看每款模型的審美能力。

再換一題，來一個經典老題：天氣卡片，主要是考驗模型的審美能力。

提示詞：

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

LongCat-Flash-Thinking-2601：

Kimi K2 Thinking ：

DeepSeek-V3.2：

LongCat-Flash-Thinking-2601和DeepSeek-V3.2這兩款模型雖然完成了動”的要求，但質感較為粗糙。

它們的動效缺乏物理運動的自然感，視覺元素較為扁平，最終呈現效果略顯廉價，像是一個早期的 Demo。

Kimi K2 Thinking 的表現則是會好很多，視覺上也更加的完整。

此次測試的主要內容是以代碼為主，主要測試代碼能力的原因很簡單：代碼從不說謊，行就是行，不行就是不行，可以一眼用肉眼分辨出好壞。

雖然這次只測試了三個項目，但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

雖然它在數學和搜索上拿分拿到手軟，甚至超越了 Claude。但在代碼實戰中，它卻明顯得有些“高分低能”了。

目前該模型已經上線，感興趣的用戶可以去體驗一下。

體驗鏈接：https://longcat.ai
模型地址：https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601
GitHub：https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.