<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      美團上線首個開源并可體驗的“重思考”模型,工具調用能力登頂

      0
      分享至

      1月16日,美團LongCat官微消息,作為LongCat-Flash-Thinking模型的升級版,
      LongCat-Flash-Thinking-2601現已開源。新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調用)、TIR(工具交互推理)等核心評測基準上,均達到開源模型SOTA水平。

      值得一提的是,該模型在工具調用的泛化能力上優勢尤其明顯,在依賴工具調用的隨機復雜任務中,性能表現超越了Claude-Opus-4.5-Thinking,可大幅度降低真實場景下新工具的適配訓練成本;同時,新模型支持“重思考”模式,可同時啟動8個“大腦”執行任務,確保思考周全、決策可靠。

      目前,該功能可在 https://longcat.ai網站免費體驗。

      “重思考”功能全新上線 智能體工具調用能力登頂開源 SOTA

      據介紹,全新推出的“重思考”模式,已讓“龍貓”學會了“深思熟慮”再行動。

      具體來看,當遇到高難度問題時,新模型會把思考過程拆分成“并行思考”和“總結歸納”兩步進行:

      并行思考階段,與人類面對難題會同時嘗試多種解法相似,“重思考”模式下的模型,會在保證思路多樣性的同時,獨立梳理出多條推理路徑尋找最優解;總結歸納階段,則會對多條路徑進行梳理、優化與合成,并將優化結果重新輸入,形成閉環迭代推理,推動思考持續深化。

      除此之外,LongCat團隊在新模型中加入了額外的強化學習環節,針對性打磨模型的總結歸納能力,從而讓
      LongCat-Flash-Thinking-2601實現了“想清楚再行動”的結果。

      經過全面嚴謹的評估,
      LongCat-Flash-Thinking-2601模型在編程、數學推理、智能體工具調用、智能體搜索等維度表現優異:



      LongCat-Flash-Thinking-2601的平均性能比較(資料圖)

      · 編程能力:
      LongCat-Flash-Thinking-2601在LCB評測中取得82.8分,OIBench EN 評測獲47.7分,成績處于同類模型第一梯隊,代碼基礎能力扎實。

      · 數學推理能力:在開啟“重思考”模式后表現突出,
      LongCat-Flash-Thinking-2601在 AIME-25 評測中獲100.0分(滿分),IMO-AnswerBench中以86.8分達到當前SOTA。

      · 智能體工具調用能力:在τ2-Bench評測中拿到88.2分,VitaBench評測中獲得29.3分,均獲得開源SOTA水平,在多領域工具調用場景下表現優異,適配實際應用需求。

      · 智能體搜索能力:在BrowseComp任務中取得73.1分(全模型最優),RW Search 評測獲79.5分,
      LongCat-Flash-Thinking-2601具備強勁的信息檢索與場景適配能力,達到開源領先水平。

      為了更好測試智能體模型的泛化能力,團隊還提出了一種全新的評測方法——通過構建一套自動化任務合成流程,支持用戶基于給定關鍵詞,為任意場景隨機生成復雜任務,并為每個生成的任務配備對應的工具集與可執行環境。由于這類環境中的工具配置具有高度隨機性,該方法可通過評估模型在該類環境中的性能表現,衡量其泛化能力。

      實驗結果表明,
      LongCat-Flash-Thinking-2601在絕大多數任務中保持領先性能,印證了其在智能體場景下優秀的泛化能力。

      技術解密:從“靶場”到“實戰”的訓練哲學

      對于新模型的技術思路,LongCat團隊解釋稱,傳統智能體往往僅在數個簡單模擬環境里訓練,這帶來的問題就像只在靶場訓練的士兵,到了真實“戰場”可能會掉鏈子。而基于“環境擴展+多環境強化學習”核心技術,團隊為模型打造了多樣化的“高強度練兵場”,構建了多套高質量訓練環境,并在每套環境中集成60余種工具形成密集依賴關系圖譜與復雜聯動,支撐起高度復雜的任務場景。實驗也證明,訓練環境越豐富,模型在未知場景中的泛化能力越強。

      得益于這套方案,
      LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調用等核心基準測試中穩居前列。尤其在復雜隨機的分布外任務中,性能優于 Claude-Opus-4.5-Thinking。

      此外,LongCat團隊針對性擴展自研強化學習基礎設施,在保留原有高效異步訓練特性的基礎上,實現大規模多環境智能體的穩定并行訓練,通過均衡搭配多環境任務、按難度與訓練進度智能分配算力,最大化提升訓練效率與資源利用率;該團隊還從復雜度、多樣性雙維度嚴控訓練任務,配套專屬數據庫及優化方案,杜絕模型“偏科”與訓練漏洞,讓這套全流程方案持續賦能模型,使其穩居智能體能力第一梯隊。

      該團隊還表示,現實世界的智能體環境充滿不確定性,API調用失敗、返回異常信息、觀測數據不完整等“噪聲”問題,極易導致模型決策失誤。為此,團隊在訓練數據的過程中主動注入多類噪聲,模擬API的調用失敗、返回錯誤信息、數據缺失等場景,并用課程學習的方式循序漸進地進行模型訓練,在訓練過程中逐步增加噪聲的類型與強度——類比教新手騎車,首先會讓其在平坦路面做練習,等技能成熟后再逐步增加路面的復雜度。



      帶噪聲/無噪聲評測集下的模型表現對比(資料圖)

      經過系統化的抗干擾訓練,
      LongCat-Flash-Thinking-2601(Training w/Noise組)擁有了極強的環境適應能力,在復雜場景中,也能穩定發揮、高效完成任務。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      許家印大兒子月領4100萬躺平,二兒子替父頂罪蹲號子,女兒開跑車

      許家印大兒子月領4100萬躺平,二兒子替父頂罪蹲號子,女兒開跑車

      歷史偉人錄
      2026-03-15 20:20:22
      “人壽盡,屋先知”真不是迷信!家里出現這個跡象,千萬別當小事

      “人壽盡,屋先知”真不是迷信!家里出現這個跡象,千萬別當小事

      娛樂洞察點點
      2026-04-14 13:18:34
      沙特突然 "反水",美國以色列徹底傻眼

      沙特突然 "反水",美國以色列徹底傻眼

      安安說
      2026-04-15 10:52:56
      寧波一男子想讓警察幫忙管兒子,半夜3小時連撥47次110,警方:擾亂公安機關正常工作秩序,行政拘留7天

      寧波一男子想讓警察幫忙管兒子,半夜3小時連撥47次110,警方:擾亂公安機關正常工作秩序,行政拘留7天

      大象新聞
      2026-04-15 08:49:17
      廣東一面包店發出閉店通知,顧客:“孩子得知后當場大哭!”街坊紛紛挽留,多方幫助后面包店重獲“新生”

      廣東一面包店發出閉店通知,顧客:“孩子得知后當場大哭!”街坊紛紛挽留,多方幫助后面包店重獲“新生”

      極目新聞
      2026-04-14 11:30:13
      羅志祥沒有猝死!但昔日的“時間管理大師”,如今真的快撐不住了

      羅志祥沒有猝死!但昔日的“時間管理大師”,如今真的快撐不住了

      好賢觀史記
      2026-04-14 14:53:19
      世界泳聯正式解除俄羅斯禁賽!烏克蘭不滿+拒對陣俄羅斯 被判0-5

      世界泳聯正式解除俄羅斯禁賽!烏克蘭不滿+拒對陣俄羅斯 被判0-5

      念洲
      2026-04-14 11:46:07
      后續!孕婦花198買水果被罵:已終止妊娠并準備離婚,老公崩潰了

      后續!孕婦花198買水果被罵:已終止妊娠并準備離婚,老公崩潰了

      米果說識
      2026-04-14 19:52:28
      “五一”假期航班被大批取消,主要涉及東南亞、大洋洲航線

      “五一”假期航班被大批取消,主要涉及東南亞、大洋洲航線

      南方都市報
      2026-04-14 22:36:07
      湖人季后賽生死牌:東契奇飛西班牙打針,小里躺平等夏天2.41億?

      湖人季后賽生死牌:東契奇飛西班牙打針,小里躺平等夏天2.41億?

      籃球看比賽
      2026-04-15 10:53:44
      同仁醫院最新研究:睡覺開小夜燈,孩子近視風險高2.4倍

      同仁醫院最新研究:睡覺開小夜燈,孩子近視風險高2.4倍

      人民日報健康客戶端
      2026-04-13 10:48:20
      襄陽“123大廈”被拆!村支書一句“一二三”,落得免職又拆樓

      襄陽“123大廈”被拆!村支書一句“一二三”,落得免職又拆樓

      社會日日鮮
      2026-04-15 08:37:54
      業界女優的等級怎么看?從這幾點看就行!

      業界女優的等級怎么看?從這幾點看就行!

      吃瓜黨二號頭目
      2026-04-15 09:10:57
      摸景甜胸側,摟李雪琴胳膊,沒分寸感的他來《你好星期六》干嘛?

      摸景甜胸側,摟李雪琴胳膊,沒分寸感的他來《你好星期六》干嘛?

      橙星文娛
      2026-04-12 18:14:00
      他是共和國反貪第一人,1993年因乘車問題,把一副部級領導拉下馬

      他是共和國反貪第一人,1993年因乘車問題,把一副部級領導拉下馬

      簡史檔案館
      2026-04-15 11:05:03
      周深連發153個“啊”,直言為蘇超開幕式演唱感覺“完全不一樣”

      周深連發153個“啊”,直言為蘇超開幕式演唱感覺“完全不一樣”

      極目新聞
      2026-04-14 17:50:03
      國民黨內訌,前高層沖闖黨部斥責鄭麗文:你不配當主席,是個卒子

      國民黨內訌,前高層沖闖黨部斥責鄭麗文:你不配當主席,是個卒子

      面包夾知識
      2025-12-31 23:04:14
      死不悔改?國家出手后,又一名人侮辱全紅嬋,劣行被扒一言難盡

      死不悔改?國家出手后,又一名人侮辱全紅嬋,劣行被扒一言難盡

      小徐講八卦
      2026-04-14 06:06:53
      4月13日國務院放大招,鄉鎮衛生院終于不用再當“擺設”了

      4月13日國務院放大招,鄉鎮衛生院終于不用再當“擺設”了

      李博世財經
      2026-04-14 10:02:08
      山東回應“舉債3.68億、總投資超7億的農業基地不干農業,卻有健身房、棋牌室等”:成立聯合調查組,嚴肅追責問責

      山東回應“舉債3.68億、總投資超7億的農業基地不干農業,卻有健身房、棋牌室等”:成立聯合調查組,嚴肅追責問責

      大象新聞
      2026-04-15 09:45:04
      2026-04-15 11:35:00
      讀懂數字財經
      讀懂數字財經
      用數據,說點財經人話
      1886文章數 3569關注度
      往期回顧 全部

      科技要聞

      手機無死角上網?亞馬遜砸百億硬剛馬斯克

      頭條要聞

      海關破獲特大走私黃金出境案:金飾近400件 總重2.8kg

      頭條要聞

      海關破獲特大走私黃金出境案:金飾近400件 總重2.8kg

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊道歉”

      娛樂要聞

      曾志偉辦73歲生日派對,逾百藝人到場

      財經要聞

      特朗普稱美國對伊朗的戰爭已經結束

      汽車要聞

      2026廣汽科技日有哪些看點?

      態度原創

      親子
      數碼
      本地
      公開課
      軍事航空

      親子要聞

      寶寶不愛笑,不一定是智商出了問題,可能是在跟照料者發出信號

      數碼要聞

      9100mAh大電池+天璣9500 REDMI K Pad 2定檔4月21日

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      萬斯:對當前美伊局勢進展“感到樂觀”

      無障礙瀏覽 進入關懷版