網易首頁 > 網易號 > 正文申請入駐

實測美團 LongCat：快到極致，但是別說追平 DeepSeek

2025-09-04 11:32:49　來源: AI科技評論

廣東舉報

分享至

用過才知道，「快」不是萬能藥。

作者丨鄭佳美

編輯丨馬曉寧

如果你這幾天刷社交媒體，應該已經注意到，美團的LongCat-Flash-Chat正在頻頻刷屏，標題大多是將其與 DeepSeek 作對比，稱美團推出的第一款開源大模型已經追平了 DeepSeek-V3.1。

事實果真如此嗎？AI 科技評論想要一探究竟。

首先可以確定的是，這款模型上是一款面向日常對話與輕量問答的中量級對話模型，560B總參數，稍小于 DeepSeek-V3.1 的 671B，但是兩者都采用了 MoE 架構。前者強調延遲控制與高并發下的流暢體驗，后者邏輯拆解與復雜問題的處理能力更強。

LongCat這款模型最大的標簽就是“快”，幾乎零延遲的秒回體驗，讓不少用戶直呼過癮。但問題隨之而來，這種優勢在真實的推理場景里還能保持嗎？還是說，一旦離開“比拼速度”的賽道，它就會顯露短板？

帶著這個疑問，AI 科技評論對 LongCat-Flash-Chat 做了一番實測，試圖拆解它在速度之外的真實實力，究竟是實打實的超越，還是一場被熱度放大的幻覺。

回答快如閃電，但推理真不行

先說好的地方。實測中 LongCat-Flash-Chat 最大的特點就是“快”。

不管是最簡單的閑聊問答，還是稍微有點難度的算術題，它幾乎都是秒回，像是沒經過任何猶豫就把答案甩出來了。比如隨手問它一個“24×37 等于多少”的小算術題，答案幾乎是一閃就給出。

這樣的速度并不是錯覺，而是背后做了不少優化：一方面它本身走的是更輕量的路線，模型體量沒有那么龐大，計算自然更快。另一方面，美團在工程上也做了延遲壓縮和高并發優化，讓它在成千上萬請求同時涌入時依舊保持順暢。簡單說，就是模型更輕、系統更順，疊加起來造就了這種幾乎零延遲的體驗。

相較之下，DeepSeek 雖然在云端推理的優化上做得很不錯，速度也不算慢，但還是能明顯感覺到它在“想一想”，像是大腦里先過了一遍邏輯，再把答案寫出來。

一個偏穩，一個偏快，風格差別非常明顯。就這個問題而言，確實 LongCat-Flash-Chat 的反應讓人更爽。

這種快究竟能有多快呢？從數據上，它在 H800 硬件上達到了單用戶超過100 tokens/秒的生成速度，同時輸出成本低至5元/百萬 token 。這一速度顯著超越了許多主流模型，如同期 Llama 3 的80 tokens/秒（單卡 RTX 4090 ），以及 DeepSeek-V3.1 和 Gemini 2.5 Pro 的約40 tokens/秒（需多張高端 GPU ）。所以反應這塊兒，LongCat-Flash-Chat 一馬當先。

但一旦到了稍微燒腦一點的推理，LongCat-Flash-Chat 的短板就暴露無遺：回答顯得太用力，好像把能想到的角度全都堆上去，結果信息太滿，重點反而模糊，看完容易覺得負擔大。

相比之下，DeepSeek 的答案就靈活得多。一上來就抓住“但丁”的雙關點，從“人名”和“轉折詞”兩個角度切入，再結合“中國話”的語境延展，還順手補了點背景知識。

邏輯層層遞進，不僅解釋清楚，還帶點機智感和趣味性，讀起來輕松順暢。

在更復雜的邏輯測試里，這種差距被放大。比如那個“半紅半綠的 8”的故事：一名女生考試只得了 38 分，偷偷把分數改成 88 分，被父親發現后挨了一巴掌。父親質問：“你 8 怎么一半是紅的、一半是綠的？”

LongCat-Flash-Chat 的回答依舊很快，但內容更像是把心理學、教育學、文化背景的各種標簽一股腦羅列上去。

它會從“父親對數字真實性的懷疑”“女兒成績帶來的壓力”“教育方式的失敗”“文化中嚴厲家風的映射”等角度展開，看似面面俱到，卻缺少一個緊密的邏輯鏈條，讀起來像是堆滿了理由，卻沒有把最關鍵的因果關系捋清楚。

而 DeepSeek 的思路則扎實得多。它沒有停留在表面羅列背景，而是一步步扣住細節，把父親為什么會因為“半紅半綠的 8”察覺到異常推理出來。

它先是注意到數字“38”被改成“88”，但女兒可能用了不同顏色的筆去修改，導致“8”的上下半部分顏色不一致。接著，它進一步分析父親當下的反應：憤怒其實源于對女兒作弊行為的震驚與失望，而不是單純的數字錯誤。

隨后，DeepSeek 又追溯更深層的原因——父親一直把女兒視作“自己的一部分”，因此對成績失敗格外敏感，當發現“女兒的 8 是一半紅一半綠”時，這種錯位不僅打破了他長期的認知，還讓他猛然意識到自己對孩子教育和情感溝通上的失敗，從而情緒崩潰。

換句話說，DeepSeek 并沒有停在標簽的堆砌上，而是順著“數字—顏色—父親反應—心理沖擊”這樣一條完整的邏輯鏈條展開。解釋過程緊密，因果清晰，也更貼近原故事本身。

再測試模型的抗污染能力，兩家的差距同樣明顯。

在“逸一時，誤一世”這句話的測試里，LongCat-Flash-Chat 依舊走的是“百科式”作答。它會把各種可能性一股腦拋出來，信息量確實不少，但缺乏抓住重點的能力。

比如，它先列出幾種可能來源：可能是網絡流行語（類似“失足成千古恨”）、可能出自游戲或影視臺詞、可能是某位現代作家的創作、也可能是日語表達的翻譯。每個角度都有對應解釋，比如網絡用語可能是網友自創并傳播，文學則可能是某些現代作家的“誤一瞬，誤一生”式表達，日語則可能來自“瞬間的失敗，一生的遺憾”這種說法。最后還給了一個“進一步確認”的建議：去查上下文或在網絡搜索。

整體看下來，LongCat 的回答像是把百科里所有可能的條目都拎出來羅列一遍，覆蓋面很廣，卻缺少清晰的判斷和推理，讀者很難從中得到一個明確結論。

DeepSeek 則直接點明“逸一時，誤一世”是網絡流行語，還補充了來源背景、語言特點和常見用法，結論清晰、邏輯完整，讀者一眼就能抓住重點。

再看拆詞能力。兩個模型都沒出錯，但風格差別很大。美團的回答像個“老實人”，逐個字母去判斷是不是 “r”，還附帶視覺高亮和常見錯誤提醒，細節過多，顯得冗長啰嗦。

DeepSeek 的答案則利落得多：直接寫出單詞，標明 “r” 在第 3、8、9 位，然后給出最終答案。邏輯緊湊，直擊核心，簡潔高效。

速度重要，還是邏輯重要？

實測結果已經很清楚：美團 LongCat-Flash-Chat 在速度上幾乎無敵，問題剛拋出去就能立刻彈回答案，帶來一種反應敏捷的快感。但一到推理場景，它就立刻失去高光。相比之下，DeepSeek 雖然慢半拍，卻能把邏輯拆解得條理分明，從因果鏈到背景解釋都鋪開，讓人更愿意相信。

這對比其實引出了一個核心問題：在真實應用里，用戶究竟更在意的是快，還是對。

快帶來的確實是驚艷的第一印象。毫秒級的響應，在閑聊、陪伴、娛樂這類輕量場景里，能營造流暢的互動感。但用戶的心理也很微妙：如果答案錯了，速度反而會放大落差，讓人覺得明明回得這么快，卻一點不靠譜。這種爽感維持不了多久，就會轉化成失望。

對則決定了能否走得長遠。邏輯不僅是復雜任務的基石，更是用戶建立信任的前提。一個能清晰交代因果關系的模型，哪怕回答慢一些，也會被認為靠譜。這在知識問答、推理、寫作、科研、辦公、決策等場景里尤為重要，因為用戶要的不只是一個結果，而是能解釋為什么的結果。

這也揭示了行業的分水嶺。追求快的模型，多半會停留在娛樂化、陪伴型應用里，生命周期短，用戶留存靠的是新鮮感。而強調邏輯的模型，才有機會進入教育、科研、辦公等高價值場景，在這里，準確性、可解釋性比響應時間更關鍵。

從商業角度看，邏輯甚至決定了客戶是否愿意買單。企業用戶可以容忍模型慢幾秒，卻無法容忍輸出不可靠。速度是體驗的加分項，但邏輯才是交易的底線。這也是為什么長期來看，邏輯會成為模型的護城河，而快更多只是營銷層面的亮點。

簡單說，速度確實決定著模型能不能制造驚艷，但邏輯決定了它能不能真正留下用戶、贏得信任，并走得更遠。

不過也要說一句公道話：LongCat-Flash-Chat 作為美團的第一款開源模型，能把“速度”做到極致，本身就是一次大膽且令人驚艷的嘗試。它在交互體驗上的突破，的確讓人眼前一亮，只是放到推理、復雜任務等更高價值的場景里，暫時還不如 DeepSeek-V3.1 那樣穩健可靠，就別說追平 DeepSeek-V3.1 了。

可以說，LongCat-Flash-Chat 已經打出了一張漂亮的“速度牌”，證明了美團有能力在模型賽道留下名字，但距離真正的“好用”與“實用”還有一段路要走。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.