<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      美團新模型LongCat-Flash-Thinking-2601重思考模式拉風,附一手對比實測

      0
      分享至

      作者|子川

      來源|AI先鋒官

      近日,美團重磅更新并開源自家模型LongCat-Flash-Thinking-2601


      據介紹,此次發布的模型是LongCat-Flash-Thinking模型的升級版,擁有 5600 億個參數,并基于的 MoE 架構構建。

      LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)

      簡單來說,這個模式讓模型能同時啟動 8 個大腦思考,從不同角度和深度推理同一個問題,最后總結出一個更全面、更可靠的結論。

      給大家看一個簡單的例子就明白了。


      提示詞:1+1為什么不等于2


      可以看到,重思考模式相當于使用了8個模型同時進行推理工作,最后的給出的8個答案在進行反復驗證,最終會得到一個最終解。


      除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓LongCat-Flash-Thinking-2601實現“想清楚再行動”的結果。

      不過在體驗的時候,由于相當8款模型同時在推理,所以它的上下文非常容易耗光,會經常返回“當前對話上下文過長,建議精簡輸入后重試”。


      那這款模型表現到底如何?我們先來看LongCat-Flash-Thinking-2601的紙面實力。


      首先是大家最關注的編程能力上,LCB 評測拿到82.8 分,OIBench EN 評測獲47.7 分,這些成績處于同類模型第一梯隊。

      數學推理方面,開啟重思考模式后更猛。

      AIME-25 評測中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達到當前 SOTA。

      智能體工具調用上,τ2-Bench 評測88.2 分,VitaBench 評測29.3 分,均為開源 SOTA 水平。

      智能體搜索方面,BrowseComp 任務73.1 分(全模型最優),RW Search 評測79.5 分

      最關鍵的是什么?在工具調用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。


      這一連串的SOTA似乎有點東西,那它的實際效果到底如何? 老規矩,我們直接上手實測。

      此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

      提示詞:
      創建一個 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示。

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對“河流”的幾何理解出現了偏差。它未能生成自然蜿蜒的水體,而是生成了一個圓柱體結構,導致視覺上更像是一根橫亙在山間的“水管”。

      而且DeepSeek-V3.2出現了嚴重的幻覺,模型似乎在坐標系構建上徹底迷失,原本應是連綿起伏的山脈和流動的河水,被渲染成了兩條細長的線段。

      功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點綴、動態的云朵與太陽一應俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!

      或許這條題太難,給它們減低一下難度,做一個簡單的可視化登錄頁面。

      提示詞:請創建一個現代化的登錄頁面,包含以下功能:

      - 郵箱和密碼輸入框

      - 登錄按鈕

      - "記住我"和"忘記密碼"選項

      - Google第三方登錄

      - 注冊鏈接

      要求:深色主題,未來科技風格,居中布局,良好的用戶體驗。

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      這次終于扳回一城,對于簡單的登錄頁面的UI,目前的模型已經是手拿把恰了,效果都大差不差,登錄、注冊等功能都有,主要是看每款模型的審美能力。

      再換一題,來一個經典老題:天氣卡片,主要是考驗模型的審美能力。

      提示詞:
      Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

      LongCat-Flash-Thinking-2601:

      Kimi K2 Thinking :

      DeepSeek-V3.2:

      LongCat-Flash-Thinking-2601DeepSeek-V3.2這兩款模型雖然完成了動”的要求,但質感較為粗糙。

      它們的動效缺乏物理運動的自然感,視覺元素較為扁平,最終呈現效果略顯廉價,像是一個早期的 Demo。

      Kimi K2 Thinking 的表現則是會好很多,視覺上也更加的完整。

      此次測試的主要內容是以代碼為主,主要測試代碼能力的原因很簡單:代碼從不說謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。

      雖然這次只測試了三個項目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

      雖然它在數學和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實戰中,它卻明顯得有些“高分低能”了。

      目前該模型已經上線,感興趣的用戶可以去體驗一下。

      • 體驗鏈接:https://longcat.ai

      • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

      • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

      掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      黃子華再度封神,《夜王》炸裂!54歲的他依舊抗打!

      黃子華再度封神,《夜王》炸裂!54歲的他依舊抗打!

      鄉野小珥
      2026-02-25 20:00:48
      外國人對中國國土面積有啥誤解?網友:梵蒂岡,就故宮一半大點

      外國人對中國國土面積有啥誤解?網友:梵蒂岡,就故宮一半大點

      帶你感受人間冷暖
      2026-02-25 00:10:12
      尺度不輸《斯巴達克斯》,Netflix王牌美劇太頂了

      尺度不輸《斯巴達克斯》,Netflix王牌美劇太頂了

      來看美劇
      2026-02-25 19:04:40
      劉強東稱已接到5條大型游艇訂單,每艘平均賣6000萬歐元

      劉強東稱已接到5條大型游艇訂單,每艘平均賣6000萬歐元

      第一財經資訊
      2026-02-25 18:38:04
      “女護士提分手遭前男友殺害案”兇手提起上訴,此前被告人一審獲死刑

      “女護士提分手遭前男友殺害案”兇手提起上訴,此前被告人一審獲死刑

      揚子晚報
      2026-02-25 14:46:39
      在小縣城名聲很臭是啥體驗?網友:臉皮夠厚,一切不成問題

      在小縣城名聲很臭是啥體驗?網友:臉皮夠厚,一切不成問題

      解讀熱點事件
      2026-02-04 00:05:07
      全國統一執行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

      全國統一執行!3月1日起,公職人員戴上緊箍咒,老百姓迎來大便利

      福建平子
      2026-02-25 10:54:52
      女子返程被堵高速,發現20多輛私家車占用應急車道行駛,花半小時挨個拍照舉報,當事人發聲;交警回應:處理中

      女子返程被堵高速,發現20多輛私家車占用應急車道行駛,花半小時挨個拍照舉報,當事人發聲;交警回應:處理中

      揚子晚報
      2026-02-24 16:27:31
      國家能源集團平莊煤業黨委書記杜善周接受審查調查

      國家能源集團平莊煤業黨委書記杜善周接受審查調查

      界面新聞
      2026-02-25 15:33:15
      3-1進16強!中國女乒27歲王牌再閃耀:追趕孫穎莎沖世界第1?

      3-1進16強!中國女乒27歲王牌再閃耀:追趕孫穎莎沖世界第1?

      李喜林籃球絕殺
      2026-02-24 21:39:32
      紫牛頭條|離婚當晚殺害前妻逃亡17年,男子一審被判死緩,檢察院:量刑畸輕,提起抗訴

      紫牛頭條|離婚當晚殺害前妻逃亡17年,男子一審被判死緩,檢察院:量刑畸輕,提起抗訴

      揚子晚報
      2026-02-25 22:02:42
      我不好看但很耐看

      我不好看但很耐看

      疾跑的小蝸牛
      2026-02-25 20:46:47
      北京廟會離譜謝幕:京味兒消亡史,一場關于"智商稅"的集體記憶

      北京廟會離譜謝幕:京味兒消亡史,一場關于"智商稅"的集體記憶

      據說說娛樂
      2026-02-25 15:41:39
      越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

      越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

      往史過眼云煙
      2026-02-25 14:23:55
      離譜!校友惡評谷愛凌:她是中國間諜 和中國一樣甘心當世界第二

      離譜!校友惡評谷愛凌:她是中國間諜 和中國一樣甘心當世界第二

      念洲
      2026-02-25 07:47:12
      平頂山事件二次通報!真相竟是先打其他3人再暴打15歲女生!

      平頂山事件二次通報!真相竟是先打其他3人再暴打15歲女生!

      魔都囡
      2026-02-25 10:57:52
      特朗普發表國情咨文演講 一民主黨議員抗議被帶離場 最新民調:特朗普的支持率為36%

      特朗普發表國情咨文演講 一民主黨議員抗議被帶離場 最新民調:特朗普的支持率為36%

      每日經濟新聞
      2026-02-25 14:13:57
      救市!上海樓市,亮劍了

      救市!上海樓市,亮劍了

      城市財經
      2026-02-25 15:37:37
      TVB御用爛仔游飆去世,演41年戲月薪不如保安,留下8歲女兒無依靠

      TVB御用爛仔游飆去世,演41年戲月薪不如保安,留下8歲女兒無依靠

      新金牌娛樂觀察家
      2026-02-25 10:15:08
      400億!沈騰徹底飛馳了

      400億!沈騰徹底飛馳了

      華商韜略
      2026-02-25 10:34:36
      2026-02-25 22:28:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      437文章數 60關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      被指涉愛潑斯坦案 挪威前首相自殺未遂命懸一線

      頭條要聞

      被指涉愛潑斯坦案 挪威前首相自殺未遂命懸一線

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      旅游
      時尚
      教育
      游戲
      軍事航空

      旅游要聞

      熱氣騰騰的中國年︱天府煙火暖 新春年味濃

      “復古甜心”穿搭突然大火!春天穿時髦又減齡

      教育要聞

      超短學期!新學期校歷來了!

      曾經跟GTA叫板的IP日薄西山了!母公司始終保持沉默

      軍事要聞

      俄烏沖突四周年:和平談判希望渺茫

      無障礙瀏覽 進入關懷版