<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型如何「在思考中使用工具」|Interleaved Thinking

      0
      分享至

      DeepSeek V3.2 提到了一個東西,屬于核心迭代
      在思考中,使用工具
      技術報告里,把這個叫Thinking in Tool Use

      在這里與大家說道,這東西的由來、演進和現(xiàn)狀,方便吹牛逼用

      這里還有份報告解讀:

      所謂「Thinking in Tool-Use
      顧名思義,就是大模型一邊調(diào)用工具,一邊推理,多次循環(huán)后,最后輸出答案

      行業(yè)里,常把這個叫做 Interleaved Thinking,本文沿用這個說法

      類似的東西,最早是 Anthropic 提出的
      今年初發(fā)布的,叫 Extended Thinking。額外說明:o1 不算,那個沒工具調(diào)用


      相關內(nèi)容,發(fā)表于 25年2月24日:《Claude’s extended thinking》

      在開源模型里,最早是 OpenAI 開源的 oss 最先支持的
      說法是 interleaving tool calls within the CoT


      相關內(nèi)容,發(fā)表于 25年8月5日:gpt-oss Model Card

      之后,國內(nèi)的幾家模型廠,也給到了類似說法:

      • ? MiniMax M2 叫它「交錯思維鏈」

      • ? Kimi K2 叫它「邊思考邊使用工具」

      • ? DeepSeek v3.2 叫它「思考模式下的工具調(diào)用」

      各家說法不同,本質(zhì)是一件事
      大模型,如何在保留推理狀態(tài)的同時,進行多次工具調(diào)用

      有關交錯思維鏈,MiniMax 前段時間還寫了篇文章,強調(diào)這東西的重要性,具體后面細說

      技術原理

      先說下推理模型是怎么使用工具的

      舉個例子,你問模型一個問題:
      一臺最新蘋果手機,和兩臺最新的豆包手機,誰更貴?

      以最開始的 o1 模型為例,o1 這個模型并不能進行工具調(diào)用,只能回答
      對不起,我無法訪問網(wǎng)絡,并不知道誰更貴

      再之后,一些朋友對 o1 類的模型進行了工程優(yōu)化(比如具有聯(lián)網(wǎng)能力的 DeepSeek R1),讓他能夠在回答前,先搜索一些問題,然后多次調(diào)用模型,流程就變成了這樣:
      先搜最新的蘋果手機讀結(jié)果決定下一步搜什么再搜索再讀結(jié)果 → ... → 整理答案


      標準的工具調(diào)用流程

      但實際上...在處理先搜最新的蘋果手機這一步中,就會發(fā)現(xiàn)蘋果有多款機型
      如果只拿最新的 iPhone 17 比較,肯定不妥,畢竟還有 air 和 pro

      作為人的話,可能會中間留個心眼:最新的蘋果手機,需要考慮系列嗎?
      那么,如果是大模型,會記住這些東西嗎?

      早期做法:丟掉
      具體來說:忘掉所有的中間思考,只保留結(jié)果和部分總結(jié)
      這部分的具體描述,可以參加 OpenAI 的 o1 文檔:思維鏈是隱藏的


      早期做法:每輪丟棄推理狀態(tài)

      所以,在進行最終判斷的時候,大模型的上文可能只有:

      • ? iPhone 17 的標準定價為 5999

      • ? 豆包手機(努比亞)的標準定價為 3499

      然后得出結(jié)論:

      iPhone 17,不如兩臺豆包手機貴

      但....

      作為人的話,我們會保留個心眼,思考過程也記著:

      • ? iPhone 17 的標準定價為 5999(同期發(fā)售的還有 iPhone Air:7999;Pro:8999)

      • ? 豆包手機(努比亞代工)的標準定價為 3499(目前無貨,閑魚 4499)

      然后出結(jié)論:

      iPhone 17,不如兩臺豆包手機貴 Air 和 Pro 則貴于兩臺豆包

      這種「留心眼」的做法,就是 Interleaved Thinking
      模型調(diào)用工具拿到結(jié)果繼續(xù)思考(帶著之前的推理)再調(diào)用工具繼續(xù)思考...

      在這里,計劃假設中間結(jié)論都會被帶到下一輪


      Interleaved Thinking:保留推理狀態(tài)

      當然,這里為了方便表達,我對原理進行了極大的刪減
      實際的做法和流程都會更為復雜
      比如...這些推理內(nèi)容,在何時才會舍棄?

      以DeepSeek v3.2為例,論文里是這么描述的:
      只有新用戶消息到來時,才丟棄推理內(nèi)容,工具返回結(jié)果不觸發(fā)丟棄

      ...這樣的細節(jié)還有許多,還是挺有工程實踐&復雜度的

      效果差距

      對于「保留推理狀態(tài) vs 丟棄推理狀態(tài)」,會有多少差距呢?
      對于長鏈路 Agent 任務,最高能有 +35%+40%
      數(shù)據(jù)來自于 MiniMax 的對比測試數(shù)據(jù)


      對比數(shù)據(jù)


      • ? SWE-Bench Verified:69.4 vs. 67.2, +3.3%

      • ? 2:87 vs. 64, +35.9%

      • ? BrowseComp:44.0 vs. 31.4, +40.1%

      • ? GAIA:75.7 vs. 67.9, +11.5%

      • ? xBench:72.0 vs. 66.0, +9.1%

      至于為什么差距這么大?

      可以這么理解:
      一旦丟棄了之前的推理狀態(tài),模型的累積理解能力會下降,自我修正能力會減弱

      這東西,在長程工具調(diào)用和「運行–修復」循環(huán)中尤其明顯

      世界是個草臺班子

      這里有個現(xiàn)實問題:
      很多項目使用了 thinking 模型,但工具的連續(xù)調(diào)用總是出問題
      而且...可能...甚至還沒發(fā)現(xiàn)

      這個其實是 OpenAI 的鍋

      OpenAI 有多套 API 調(diào)用方法:

      • ? Completions (不再建議使用)

      • ? Chat Completions

      • ? Assistants API (壓根沒人用)

      • ? Responses API

      目前用的最廣泛的的,是 Chat Completions api
      但... 這玩意兒壓根沒有 thinking 相關的字段
      于是大家只能在 assistant message 里假裝 thinking


      Chat Completions API 的 assistant message 結(jié)構(gòu),沒有 thinking 相關字段

      新的 Responses API 確實支持 reasoning 配置
      但它返回的是 reasoning.encrypted_content——加密版本的推理內(nèi)容
      推理過程?更不存在的


      Responses API 的 reasoning 配置,注意那個 encrypted_content

      能用于多輪對話狀態(tài)保持,但你看不到原始推理過程

      你說 OpenAI 開源的那個 oss 支持?
      哈哈哈哈哈哈哈哈哈哈
      那套鬼東西,根本沒定義接口,怎么實現(xiàn)你就自己看著來吧


      OpenAI 的 oss

      按照慣性,大家都照著 OpenAI 的 API 規(guī)范寫代碼
      但由于 OpenAI 在這個方面過于不干人事兒
      各家廠商在這個不完整的規(guī)范上各自魔改

      仔細看,你會發(fā)現(xiàn).... DeepSeek R1 的 Thinking 結(jié)構(gòu),和 OpenAI 的也都不一樣
      然后同樣的模型,在硅基流動、火山、官方 api 上,響應結(jié)構(gòu)甚至也都不一樣


      OpenAI API vs DeepSeek API

      于是...調(diào)用 API 的時候,thinking 壓根沒放在上下文
      哈哈哈哈哈哈哈哈哈哈

      MiniMax 的貢獻

      事情的另一個角度,MiniMax 反倒是 Thinking 模型的標準化,做了許多生態(tài)上的工作,比如與OpenRouter、Ollama、Droid、Vercel、Cline合作,共同推進并實現(xiàn)這一功能的跨平臺支持。

      具體的可以參見,希望通過推動統(tǒng)一標準,在應用、OpenAI 兼容API、Anthropic 兼容 API 中,來推動 Interleaved Thinking 的廣泛支持


      相關背景

      11 月在紐約 AI.Engineer Summit,MiniMax 研究員 Olive 講了 Interleaved Thinking


      Olive 在 AI.Engineer Summit 上的分享,圖中的 ppt 和 ds3.2 頗有相似

      然后挨個給生態(tài)里的工具提 PR:

      • ? Cline、RooCode : 讓 VS Code 插件支持 Interleaved Thinking

      • ? Kilo Code : 優(yōu)化多輪對話的狀態(tài)保持邏輯

      • ? OpenRouter、Ollama : 推動平臺層面跟進支持

      MiniMax 給 Kilo Code 提的 PR

      Cline 和 Kilo Code 官方都發(fā)推確認了


      Cline 官方的確認推文 Kilo Code 官方的確認推文

      現(xiàn)在這些平臺上,MiniMax M2 是第一個正確支持 Interleaved Thinking 的開源模型

      對于其他支持這個機制的模型,比如 DeepSeek V3.2、Kimi K2,直接就能用了。算是給這個這種 thinking,造了個朋友圈

      MiniMax 還開源了 Mini-Agent,一個支持 Interleaved Thinking 的 Coding CLI,700+ Star


      Mini-Agent 項目

      ,開發(fā)者容易踩坑 MiniMax 還專門寫了篇文章,講怎么在不同 API 格式下正確實現(xiàn) Interleaved Thinking 算是手把手教學了

      最后

      Interleaved Thinking 的核心就一句話:
      保留推理狀態(tài),讓模型在多輪工具調(diào)用中持續(xù)累積理解

      最開始的時候,我們對于 Agent 的期待,是它能不能使用工具
      然后看到了 ToolFormer 論文、看到了 Plugin、Function Call、JSON Mode
      直到去年 8 月,OpenAI 宣布可以在 Structured Outputs 的嚴格模式下,做到 100% 的成功調(diào)用


      OpenAI 的 Structured Outputs 公告: Introducing Structured Outputs in the API

      而現(xiàn)在,我們的思考變成了「調(diào)用工具時,如何保持連貫思考」,剛剛結(jié)束的 AWS re:invent 大會上,主題也便是 Agentic AI


      轉(zhuǎn)眼三年,有點恍惚...

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

      特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

      空天力量
      2025-12-24 17:06:37
      昨天進去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

      昨天進去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

      財經(jīng)智多星
      2025-12-24 16:51:49
      鹽城公布一起道路運輸事故調(diào)查報告:大貨車司機疲勞駕駛連撞5車致4死2傷

      鹽城公布一起道路運輸事故調(diào)查報告:大貨車司機疲勞駕駛連撞5車致4死2傷

      澎湃新聞
      2025-12-24 21:06:26
      三星堆的敘述手法與古國體制———三星堆的偶像、情節(jié)式敘述與背后的秩序系統(tǒng)

      三星堆的敘述手法與古國體制———三星堆的偶像、情節(jié)式敘述與背后的秩序系統(tǒng)

      經(jīng)濟觀察報
      2025-12-23 23:46:42
      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

      阿纂看事
      2025-12-12 09:18:29
      南博事件,“舉報人”郭禮典危險了

      南博事件,“舉報人”郭禮典危險了

      林中木白
      2025-12-24 20:19:50
      失業(yè)的人越來越多了

      失業(yè)的人越來越多了

      曹多魚的財經(jīng)世界
      2025-12-24 14:56:20
      如何看待發(fā)送淫穢信息違法?再也看不到院長、主任們的桃色新聞了

      如何看待發(fā)送淫穢信息違法?再也看不到院長、主任們的桃色新聞了

      爆角追蹤
      2025-12-24 12:37:06
      無恥下作還不夠,還要明目張膽地硬搶!

      無恥下作還不夠,還要明目張膽地硬搶!

      胖胖說他不胖
      2025-12-24 14:47:25
      南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

      南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

      火山詩話
      2025-12-24 14:29:42
      大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

      大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

      科技處長
      2025-12-24 14:51:42
      慘烈!飛機墜海 多人遇難! 海水猛灌機艙殘骸 乘客深海絕望

      慘烈!飛機墜海 多人遇難! 海水猛灌機艙殘骸 乘客深海絕望

      北國向錫安
      2025-12-24 10:28:47
      李在明暗示:韓國曾統(tǒng)治中原萬年?日媒:他對中國怕不是有啥幻想

      李在明暗示:韓國曾統(tǒng)治中原萬年?日媒:他對中國怕不是有啥幻想

      史料布籍
      2025-12-24 23:10:00
      黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術,兒子很像楊穎

      黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術,兒子很像楊穎

      笑飲孤鴻非
      2025-12-24 01:09:08
      中央批準,馮忠華履新廣州市委書記!本月3個省會(首府)城市市委書記調(diào)整

      中央批準,馮忠華履新廣州市委書記!本月3個省會(首府)城市市委書記調(diào)整

      上觀新聞
      2025-12-24 14:12:04
      越南“食品安全腐敗大案”,局長夫婦聯(lián)手撈金

      越南“食品安全腐敗大案”,局長夫婦聯(lián)手撈金

      中國新聞周刊
      2025-12-24 21:57:35
      這樣的尊榮感,的確讓人感到反胃

      這樣的尊榮感,的確讓人感到反胃

      清書先生
      2025-12-24 17:03:56
      又一大佬想跑路?他花1元買下8.6億股權(quán)后,在機場被勸返

      又一大佬想跑路?他花1元買下8.6億股權(quán)后,在機場被勸返

      毒sir財經(jīng)
      2025-12-22 21:09:27
      南博前院長徐湖平被帶走,郭禮典接受問詢

      南博前院長徐湖平被帶走,郭禮典接受問詢

      無忌財談
      2025-12-24 18:41:51
      令人震驚!柬埔寨生命科學院,院里面全都是中文的服務(多圖)

      令人震驚!柬埔寨生命科學院,院里面全都是中文的服務(多圖)

      微微熱評
      2025-12-24 12:22:04
      2025-12-25 04:55:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      224文章數(shù) 12關注度
      往期回顧 全部

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      頭條要聞

      幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

      頭條要聞

      幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

      體育要聞

      26歲廣西球王,在質(zhì)疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經(jīng)要聞

      北京進一步放松限購 滬深是否會跟進?

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態(tài)度原創(chuàng)

      手機
      健康
      本地
      房產(chǎn)
      公開課

      手機要聞

      榮耀Magic8 Ultra:雙3D生物識別+LOFIC主攝,還有24GB大內(nèi)存!

      這些新療法,讓化療不再那么痛苦

      本地新聞

      云游安徽|一川江水潤安慶,一塔一戲一城史

      房產(chǎn)要聞

      硬核!央企海口一線江景頂流紅盤,上演超預期交付!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产熟女内射oooo| 乌海市| 亚洲肥老太bbw中国熟女| 精品人妻系列无码人妻漫画 | 九色精品国产亚洲av麻豆一 | 国产jjizz女人多水| 国产精品美女一区二三区| 亚洲AV无码一区东京热久久| 亚洲国产精| 欧美成人看片一区二区三区尤物| 国产乱视频在线观看| 久久露脸国语精品国产91| 日日插插| 无码综合网| 营口市| 51国产视频| 男人天堂国产| 国产a在视频线精品视频下载 | 大陆熟妇丰满多毛xxxⅹ| 亚洲精品中文无码| 亚洲成人综合导航| 国产精品偷伦费观看一次| 性饥渴艳妇性色生活片在线播放 | 万荣县| 午夜日逼| 日韩顶级metart裸体自慰| 风流老熟女一区二区三区| 色欧美片视频在线观看| 欧美视频精品免费覌看| 国产精品无码专区| 性夜久久一区国产9人妻| 精品黑人一区二区三区久久| 无码久久久| 久久久久久久久18禁秘| 国产超碰人人爽人人做人人添| 人妻久久久| 国产天美传媒性色av| 91视频最新网址| jizz喷水| 久久精品国产免费观看频道| 国产免费午夜福利在线播放|