![]()
編輯|Panda、楊文
臨近春節,各家 AI 廠商進入沖刺階段,紛紛亮出最新大模型成果。
1 月 15 日,美團也重磅更新自家模型 ——LongCat-Flash-Thinking-2601
這是一款強大高效的大規模推理模型,擁有 5600 億個參數,基于創新的 MoE 架構構建。
![]()
該模型引入了強大的重思考模式(Heavy Thinking Mode),能夠同時啟動 8 路思考并最終總結出一個更全面、更可靠的結論。目前重思考模式已在 LongCat AI 平臺正式上線,人人均可體驗。
![]()
僅選擇「深度思考」時才會觸發重思考模式。
- 體驗鏈接:https://longcat.ai
- 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601
- GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601
不僅如此,該模型的智能體能力還獲得了重大提升:在智能體工具調用、智能體搜索和工具集成推理等基準測試中達到頂尖性能,而且在任意的 OOD(分布外)真實智能體場景中實現了泛化能力的顯著提升。
![]()
研究團隊還專門提出了一種全新的智能體模型泛化能力評測方法。
通過構建自動化的環境和任務合成流程,基于給定關鍵詞,隨機生成任意的復雜任務。每個生成的任務都配備對應的工具集與可執行環境。
這種高度隨機化的評測方式,能夠更真實地檢驗模型在未知場景下的適應能力。
實驗結果表明,LongCat-Flash-Thinking-2601 在該評測中始終保持領先性能。
![]()
接下來,我們就把模型拉到真實場景里實測一番。
一手實測:這只龍貓有點強
我們先來試試數理邏輯推理,順便看看這個重思考模式到底是怎么一回事。
「運動會招募志愿者,第一次招募了不到 100 人,其中男女比例為 11:7;補招若干女性志愿者后,男女比例為 4:3。問最多可能補招了多少名女性志愿者?」
在 longcat.ai 上開啟「深度思考」后,便進入了重思考模式,此時 8 個 Thinker 同時開工,每個都表現出不同的思考風格。有的按常規解題,有的則直接寫了個 Python 腳本。

大部分 Thinker 給出了答案 5,其中 3 號和 6 號 Thinker 還寫出詳細的推導過程。待 8 個 Thinker 執行完任務后,模型再驗證不同 Thinker 的思考過程,形成最終答案。
整個過程就像一個團隊開會討論問題,最后達成共識,最終給出的解答也更靠譜得多。

下面是道邏輯推理題。「A 的手機號碼最后 5 位,由五個不同的數字組成。B 說:我猜它是 84261。C 說:我猜它是 26048。D 說:我猜它是 49280。A 說:巧了,你們每人都猜對了位置不相鄰的兩個數。你知道這五位號碼是多少?」

8 個 Thinker 再次啟動,各自從不同角度切入。
模型沒有簡單地按照「少數服從多數」的原則采納意見,而是調用一段代碼,系統驗證答案是否滿足所有約束條件,并窮舉所有可能的組合,確認 86240 是唯一解。
這種將單個模型調用八次的模型編排方式,在技術實現上雖直接,卻在實際效果上發揮出「三個臭皮匠頂過諸葛亮」的優勢。
實測過程中,我們還發現了重思考模式的一種有趣玩法:投票。
舉個例子,我們可以開啟「深度思考」模式,然后讓模型選出 2000 年代最優秀的華語流行歌手。
我們發現不同的 Thinker 會給出很不一樣的答案,比如有一個僅選出了周杰倫、蔡依林、孫燕姿、王菲、陳奕迅五位代表,而另一個則直接列出了一長串名單。
最終,經過模型在總結階段的匯總整理,LongCat-Flash-Thinking-2601 給出了一份涵蓋多維度評估的名單,頗具參考性。
![]()
我們又試了下該模型的編程能力。先讓它生成一個 Flappy Bird 小游戲,效果很不錯。

Prompt:Make a game like flappy bird using HTML/CSS/JS in a single HTML file.
接下來我們又試了試讓其編寫一個康威生命游戲:

Prompt:用 Python 寫一個 Conway 生命游戲,提供可視化網格、暫停、單步和參數調節功能。
但實事求是地說,使用 8 個 Thinker 來完成編程任務的計算成本應當是比較高的,可能并不適合大規模應用(盡管目前該模型對普通用戶免費),但是我們認為這種模式卻非常適合醫療、金融、法律等可能需要多次深度思考來保證準確性的場景。
最后,我們再來測試一下 LongCat-Flash-Thinking-2601 模型主打的Agent 能力,其中的核心便是工具調用。
為了方便用戶測試,美團專門構建了一個「大模型工具使用測試」平臺。該平臺能基于關鍵詞隨機生成復雜的 OOD(分布外)任務,專門用來試探模型在陌生環境下的行動能力。
我們隨機生成了一個「營養補給方案」任務。平臺生成了一個包含近30個工具的復雜圖譜。從頁面右側的依賴關系可以看出,這并非簡單的線性調用,模型需要像經驗豐富的營養學家,理清兒童營養需求分析、食物營養成分計算、過敏食物篩選等工具之間環環相扣的邏輯。
![]()
更有趣的是,該平臺還支持模型對比,讓用戶可以輕松地將 LongCat-Flash-Thinking 與其它模型放在同一起跑線上進行對比。
這里我們將其與當前大模型界的頂級選手 Claude 4.5 Opus 放在了同一個賽道上,進行同步競技。
![]()
8 倍速視頻
視頻展示了兩個模型在高頻調用工具時的思考流。在任務完成后,系統會調用 AI 評估員,從執行速度與任務達成度兩個維度進行復盤。
![]()
在這個具體案例中,兩個模型都交出了高分答卷,但 LongCat 成功達到了 100% 的標準覆蓋率,而 Claude 4.5 Opus 卻未能成功為用戶創建健康檔案,僅達到了 80% 的覆蓋率。整體而言,LongCat 在處理工具依賴關系的響應節奏上展現出了更強的穩定性。
深入細節,我們可以看到這些工具的調用和輸出都采用了標準的 JSON 格式,這也是當前大量的 MCP 或 API 工具采用的主流格式。這也意味著,我們可以非常輕松地將 LongCat-Flash-Thinking-2601 整合進到現有的工作流程中。
![]()
強大實力的根基:重思考 + 智能體
那么,表現如此亮眼的 LongCat-Flash-Thinking-2601 究竟是如何煉成的?
正如其推文總結的那樣,我們先給出幾個關鍵詞:并行思考、迭代式總結、環境規模擴展(Environment Scaling)、多環境大規模強化學習(Multi-Environment RL Scaling)、課程學習(Curriculum Learning)。另外,還有即將發布的ZigZag Attention
作為 LongCat-Flash-Thinking 的最新版本,2601 版本繼承了上一版本的領域并行訓練方案,而技術底座同樣是參數總量達 560B 的高性能混合專家(MoE)架構模型。
![]()
來自 LongCat-Flash-Thinking 技術報告
在此基礎上,如上文評測所示,除了一些細節上的優化,這個新版本重點引入了兩大改進:重思考模式智能體能力
該模型新引入的重思考模式別具一格,我們目前還未見其它任何模型顯式或開源地提供類似模式。
而在智能體能力方面,美團引入了一套精心設計的流程。該流程結合了環境規模擴展與后續任務合成,并會在此之上進行可靠且高效的大規模、多環境強化學習。為更好地適應真實世界智能體任務中固有的噪聲與不確定性,美團 LongCat 團隊還對多種類型和不同強度的環境噪聲進行了系統分析,并采用課程式訓練,使模型在非理想條件下依然保持穩健表現。
下面我們就來更具體地看看美團的這些核心技術。
重思考模式:推理廣度與深度的協同擴展
打開 longcat.ai 「深度思考」后開始體驗,你第一時間就會被同時冒出的 8 個 Thinker 吸引注意。這正是 LongCat 團隊提出的Heavy Thinking Mode(重思考模式)的外在表現。它不僅看起來炫酷,更重要的是將推理能力推向了新的邊界。
![]()
大致來看,其與 AI 大牛 Andrej Karpathy 實驗性的大模型議會項目有相似之處,但不同的是,Karpathy 的大模型議會是通過模型編排方式來向不同模型構成的集體提出問題,讓它們各自發言并討論后給出最終解答,而 LongCat-Flash-Thinking-2601 新引入的重思考模式則是并行地調用一個模型 8 次來實現高強度的并行思考。
如此一來,便可以同時獲得多條相互獨立的推理路徑并進行交叉驗證,從而顯著降低偶然性錯誤,提升在復雜問題上的穩定性、可靠性與最終答案質量。如此一來,可以進一步提升模型在極具挑戰性任務上的表現。
具體來說,該模式會將高難度問題求解分解為兩個互補階段:并行思考總結,從而同時擴展推理的深度與寬度。
- 推理寬度方面,重思考模式會并行生成多條獨立軌跡,以廣泛探索不同推理路徑,并采用相對較高的推理溫度以保證多樣性。
- 推理深度方面,總結階段生成的精煉軌跡可以遞歸反饋給總結模型,形成支持逐步加深推理的迭代推理回路。LongCat 團隊還專門設計了額外的強化學習階段來訓練總結能力,進一步釋放該模式的潛力。
智能體能力提升:環境規模擴展與多環境強化學習
智能體能力方面,LongCat 團隊精心設計了一套自動化環境規模擴展鏈路,并構建了一組多樣且高質量的環境,作為工具調用類任務強化學習的訓練場,使模型能夠習得高層次、可泛化的智能體能力。
每個環境包含多達 60 余種工具,并以高密度依賴圖的形式組織,提供了足夠的復雜度以支持多樣化任務構建與大規模探索。實驗表明,隨著訓練環境數量的增加,模型在分布外(OOD)任務中的表現會持續提升(Environment Scaling)。
高質量任務構建
為確保訓練任務集的質量,LongCat 團隊對任務復雜度和多樣性進行顯式控制。每個任務都定義在從高質量環境中采樣得到的連通子圖之上,任務復雜度通過要求在該子圖內盡可能多地協同使用工具來調節。為促進任務多樣性,已選工具的再次采樣概率會逐步降低。
LongCat 團隊還構建了配套數據庫以確保任務的可執行性,并驗證每個任務至少存在一種可執行解。然而,當環境中包含大量工具時,跨數據庫的一致性維護會變得困難,可能導致部分任務無法驗證。針對這一問題,LongCat 團隊設計了專門的應對策略,使訓練的穩定性和有效性得到了充分保障。
多環境強化學習
在保持高效異步訓練和流式 rollout 特性的同時,LongCat 團隊進一步擴展了其強化學習基礎設施 DORA(異步彈性共卡系統),以支持環境規模擴展下的大規模多環境智能體訓練(Multi-Environment RL Scaling)。
具體而言,來自多個環境的任務會在每個訓練批次中以平衡的方式混合,并根據任務復雜度和當前訓練狀態分配不同的 rollout 預算。
下圖展示了該模型的多環境混合強化學習訓練曲線,可以看到上漲的趨勢非常穩定,這表明美團構建的基礎設施和算法可以有效保證訓練的穩定性。
![]()
下圖則展示了多環境強化學習訓練下,模型在不同 OOD 測試集上的 RL Scaling 表現,效果非常明顯。
![]()
面向噪聲環境的穩健訓練
真實世界的智能體環境天然存在噪聲和缺陷,僅在理想化環境中訓練模型往往難以獲得足夠的穩健性。為此,LongCat 團隊在訓練過程中顯式引入環境不完美因素,以提升模型的穩健性。
具體而言,LongCat 團隊系統分析了智能體場景中真實世界噪聲的主要來源,并設計了一套自動化流程,將這些噪聲注入訓練環境。在強化學習階段,LongCat 團隊采用課程式策略,隨著訓練推進逐步增加噪聲的類型和強度。
下圖展示了模型是否采取面向噪聲環境的穩健訓練,在帶噪聲 / 無噪聲評測集下的表現對比,其中不同的評測集上依據特性添加了不同類型的噪聲。可以看到,帶噪聲環境下未經過穩健訓練的模型的表現會出現大幅衰減,Claude 也無法適應全部的噪聲類型。而經過穩健訓練后,LongCat-Flash-Thinking-2601(Training w/ Noise 組) 對環境的噪聲和不確定性展現出了強大的適應能力,并在各類非理想條件下取得更優表現。
![]()
得益于這些改進與創新,LongCat-Flash-Thinking-2601 不僅在智能體工具使用、智能體搜索以及工具融合推理等基準測試中達到頂尖水平,還在任意的 OOD(分布外)真實世界智能體場景中展現出顯著提升的泛化能力。
LongCat ZigZag Attention:實現超長上下文
LongCat ZigZag Attention,顧名思義,是一種注意力機制,根據其官方推文描述,其一大核心亮點是能「實現 100 萬 token 上下文」。據悉,LongCat ZigZag Attention 已被成功用于訓練當前 LongCat-Flash-Thinking 模型的一個分支,我們也將很快見證這個分支版本面世。細節詳見論文:https://arxiv.org/abs/2512.23966
![]()
One More Thing
回頭來看,美團大模型站到臺前時間并不算長但節奏清晰,首次亮相在 2025 年 9 月,此后保持了每月一更的開源節奏,不斷擴容自己的能力庫:從強調響應速度的 LongCat-Flash-Chat 到專注邏輯的 Thinking 版本,再到圖像和視頻模型以及覆蓋多模態的 Omni 版本,每一步迭代都在讓這只龍貓能夠更好地理解這個世界,并讓復雜的現實生活變得更加可計算。

美團在 Hugging Face 上的論文頁面
這一次,龍貓聚焦 Agent 與 Thinking 能力進行全面提升,也是實現了一次從理解到融入真實世界的躍遷。
或許,美團現在追求的,就是一種確定性:能夠用技術在真實世界中又好又快地解決問題,終有一天讓「模型即服務」。
文中視頻鏈接:https://mp.weixin.qq.com/s/4CWGglF95Knyrc-ERzgI2w
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.