作者|子川
來源|AI先鋒官
近日,美團重磅更新并開源自家模型LongCat-Flash-Thinking-2601。
![]()
據介紹,此次發布的模型是LongCat-Flash-Thinking模型的升級版,擁有 5600 億個參數,并基于的 MoE 架構構建。
LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)。
簡單來說,這個模式讓模型能同時啟動 8 個大腦思考,從不同角度和深度推理同一個問題,最后總結出一個更全面、更可靠的結論。
給大家看一個簡單的例子就明白了。
提示詞:1+1為什么不等于2
![]()
可以看到,重思考模式相當于使用了8個模型同時進行推理工作,最后的給出的8個答案在進行反復驗證,最終會得到一個最終解。
![]()
除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓LongCat-Flash-Thinking-2601實現“想清楚再行動”的結果。
不過在體驗的時候,由于相當8款模型同時在推理,所以它的上下文非常容易耗光,會經常返回“當前對話上下文過長,建議精簡輸入后重試”。
![]()
那這款模型表現到底如何?我們先來看LongCat-Flash-Thinking-2601的紙面實力。
![]()
首先是大家最關注的編程能力上,LCB 評測拿到82.8 分,OIBench EN 評測獲47.7 分,這些成績處于同類模型第一梯隊。
數學推理方面,開啟重思考模式后更猛。
AIME-25 評測中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達到當前 SOTA。
智能體工具調用上,τ2-Bench 評測88.2 分,VitaBench 評測29.3 分,均為開源 SOTA 水平。
智能體搜索方面,BrowseComp 任務73.1 分(全模型最優),RW Search 評測79.5 分。
最關鍵的是什么?在工具調用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。
![]()
這一連串的SOTA似乎有點東西,那它的實際效果到底如何? 老規矩,我們直接上手實測。
此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。
提示詞:
創建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示。
LongCat-Flash-Thinking-2601:
Kimi K2 Thinking :
DeepSeek-V3.2:
可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對“河流”的幾何理解出現了偏差。它未能生成自然蜿蜒的水體,而是生成了一個圓柱體結構,導致視覺上更像是一根橫亙在山間的“水管”。
而且DeepSeek-V3.2出現了嚴重的幻覺,模型似乎在坐標系構建上徹底迷失,原本應是連綿起伏的山脈和流動的河水,被渲染成了兩條細長的線段。
功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點綴、動態的云朵與太陽一應俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!
或許這條題太難,給它們減低一下難度,做一個簡單的可視化登錄頁面。
提示詞:請創建一個現代化的登錄頁面,包含以下功能:
- 郵箱和密碼輸入框
- 登錄按鈕
- "記住我"和"忘記密碼"選項
- Google第三方登錄
- 注冊鏈接
要求:深色主題,未來科技風格,居中布局,良好的用戶體驗。
LongCat-Flash-Thinking-2601:
Kimi K2 Thinking :
DeepSeek-V3.2:
這次終于扳回一城,對于簡單的登錄頁面的UI,目前的模型已經是手拿把恰了,效果都大差不差,登錄、注冊等功能都有,主要是看每款模型的審美能力。
再換一題,來一個經典老題:天氣卡片,主要是考驗模型的審美能力。
提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions
LongCat-Flash-Thinking-2601:
Kimi K2 Thinking :
DeepSeek-V3.2:
LongCat-Flash-Thinking-2601和DeepSeek-V3.2這兩款模型雖然完成了動”的要求,但質感較為粗糙。
它們的動效缺乏物理運動的自然感,視覺元素較為扁平,最終呈現效果略顯廉價,像是一個早期的 Demo。
Kimi K2 Thinking 的表現則是會好很多,視覺上也更加的完整。
此次測試的主要內容是以代碼為主,主要測試代碼能力的原因很簡單:代碼從不說謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。
雖然這次只測試了三個項目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。
雖然它在數學和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實戰中,它卻明顯得有些“高分低能”了。
目前該模型已經上線,感興趣的用戶可以去體驗一下。
體驗鏈接:https://longcat.ai
模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601
GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.