DeepSeek V3.2 提到了一個東西,屬于核心迭代
「在思考中,使用工具」
技術報告里,把這個叫Thinking in Tool Use
在這里與大家說道,這東西的由來、演進和現(xiàn)狀,方便吹牛逼用
這里還有份報告解讀:
所謂「Thinking in Tool-Use」
顧名思義,就是大模型一邊調(diào)用工具,一邊推理,多次循環(huán)后,最后輸出答案
行業(yè)里,常把這個叫做 Interleaved Thinking,本文沿用這個說法
類似的東西,最早是 Anthropic 提出的
今年初發(fā)布的,叫 Extended Thinking。額外說明:o1 不算,那個沒工具調(diào)用
![]()
相關內(nèi)容,發(fā)表于 25年2月24日:《Claude’s extended thinking》
在開源模型里,最早是 OpenAI 開源的 oss 最先支持的
說法是 interleaving tool calls within the CoT
![]()
相關內(nèi)容,發(fā)表于 25年8月5日:gpt-oss Model Card
之后,國內(nèi)的幾家模型廠,也給到了類似說法:
?
MiniMax M2叫它「交錯思維鏈」?
Kimi K2叫它「邊思考邊使用工具」?
DeepSeek v3.2叫它「思考模式下的工具調(diào)用」
各家說法不同,本質(zhì)是一件事
大模型,如何在保留推理狀態(tài)的同時,進行多次工具調(diào)用
有關交錯思維鏈,MiniMax 前段時間還寫了篇文章,強調(diào)這東西的重要性,具體后面細說
技術原理
先說下推理模型是怎么使用工具的
舉個例子,你問模型一個問題:
一臺最新蘋果手機,和兩臺最新的豆包手機,誰更貴?
以最開始的 o1 模型為例,o1 這個模型并不能進行工具調(diào)用,只能回答
對不起,我無法訪問網(wǎng)絡,并不知道誰更貴
再之后,一些朋友對 o1 類的模型進行了工程優(yōu)化(比如具有聯(lián)網(wǎng)能力的 DeepSeek R1),讓他能夠在回答前,先搜索一些問題,然后多次調(diào)用模型,流程就變成了這樣:先搜最新的蘋果手機 → 讀結(jié)果 → 決定下一步搜什么 → 再搜索 → 再讀結(jié)果 → ... → 整理答案
![]()
標準的工具調(diào)用流程
但實際上...在處理先搜最新的蘋果手機這一步中,就會發(fā)現(xiàn)蘋果有多款機型
如果只拿最新的 iPhone 17 比較,肯定不妥,畢竟還有 air 和 pro
作為人的話,可能會中間留個心眼:最新的蘋果手機,需要考慮系列嗎?
那么,如果是大模型,會記住這些東西嗎?
早期做法:丟掉
具體來說:忘掉所有的中間思考,只保留結(jié)果和部分總結(jié)
這部分的具體描述,可以參加 OpenAI 的 o1 文檔:思維鏈是隱藏的
![]()
早期做法:每輪丟棄推理狀態(tài)
所以,在進行最終判斷的時候,大模型的上文可能只有:
? iPhone 17 的標準定價為 5999
? 豆包手機(努比亞)的標準定價為 3499
然后得出結(jié)論:
iPhone 17,不如兩臺豆包手機貴
但....
作為人的話,我們會保留個心眼,思考過程也記著:
? iPhone 17 的標準定價為 5999(同期發(fā)售的還有 iPhone Air:7999;Pro:8999)
? 豆包手機(努比亞代工)的標準定價為 3499(目前無貨,閑魚 4499)
然后出結(jié)論:
iPhone 17,不如兩臺豆包手機貴 Air 和 Pro 則貴于兩臺豆包
這種「留心眼」的做法,就是 Interleaved Thinking模型調(diào)用工具 → 拿到結(jié)果 → 繼續(xù)思考(帶著之前的推理)→ 再調(diào)用工具 → 繼續(xù)思考...
在這里,計劃、假設、中間結(jié)論都會被帶到下一輪
![]()
Interleaved Thinking:保留推理狀態(tài)
當然,這里為了方便表達,我對原理進行了極大的刪減
實際的做法和流程都會更為復雜
比如...這些推理內(nèi)容,在何時才會舍棄?
以DeepSeek v3.2為例,論文里是這么描述的:
只有新用戶消息到來時,才丟棄推理內(nèi)容,工具返回結(jié)果不觸發(fā)丟棄
...這樣的細節(jié)還有許多,還是挺有工程實踐&復雜度的
效果差距
對于「保留推理狀態(tài) vs 丟棄推理狀態(tài)」,會有多少差距呢?
對于長鏈路 Agent 任務,最高能有 +35% 到 +40%
數(shù)據(jù)來自于 MiniMax 的對比測試數(shù)據(jù)
![]()
對比數(shù)據(jù)
? SWE-Bench Verified:69.4 vs. 67.2,
+3.3%? 2:87 vs. 64,
+35.9%? BrowseComp:44.0 vs. 31.4,
+40.1%? GAIA:75.7 vs. 67.9,
+11.5%? xBench:72.0 vs. 66.0,
+9.1%
至于為什么差距這么大?
可以這么理解:
一旦丟棄了之前的推理狀態(tài),模型的累積理解能力會下降,自我修正能力會減弱
這東西,在長程工具調(diào)用和「運行–修復」循環(huán)中尤其明顯
世界是個草臺班子
這里有個現(xiàn)實問題:
很多項目使用了 thinking 模型,但工具的連續(xù)調(diào)用總是出問題
而且...可能...甚至還沒發(fā)現(xiàn)
這個其實是 OpenAI 的鍋
OpenAI 有多套 API 調(diào)用方法:
?
Completions(不再建議使用)?
Chat Completions?
Assistants API(壓根沒人用)?
Responses API
目前用的最廣泛的的,是 Chat Completions api
但... 這玩意兒壓根沒有 thinking 相關的字段
于是大家只能在 assistant message 里假裝 thinking
![]()
Chat Completions API 的 assistant message 結(jié)構(gòu),沒有 thinking 相關字段
新的 Responses API 確實支持 reasoning 配置
但它返回的是 reasoning.encrypted_content——加密版本的推理內(nèi)容
推理過程?更不存在的
![]()
Responses API 的 reasoning 配置,注意那個 encrypted_content
能用于多輪對話狀態(tài)保持,但你看不到原始推理過程
你說 OpenAI 開源的那個 oss 支持?
哈哈哈哈哈哈哈哈哈哈
那套鬼東西,根本沒定義接口,怎么實現(xiàn)你就自己看著來吧
![]()
OpenAI 的 oss
按照慣性,大家都照著 OpenAI 的 API 規(guī)范寫代碼
但由于 OpenAI 在這個方面過于不干人事兒
各家廠商在這個不完整的規(guī)范上各自魔改
仔細看,你會發(fā)現(xiàn).... DeepSeek R1 的 Thinking 結(jié)構(gòu),和 OpenAI 的也都不一樣
然后同樣的模型,在硅基流動、火山、官方 api 上,響應結(jié)構(gòu)甚至也都不一樣
![]()
OpenAI API vs DeepSeek API
于是...調(diào)用 API 的時候,thinking 壓根沒放在上下文
哈哈哈哈哈哈哈哈哈哈
MiniMax 的貢獻
事情的另一個角度,MiniMax 反倒是 Thinking 模型的標準化,做了許多生態(tài)上的工作,比如與OpenRouter、Ollama、Droid、Vercel、Cline合作,共同推進并實現(xiàn)這一功能的跨平臺支持。
具體的可以參見,希望通過推動統(tǒng)一標準,在應用、OpenAI 兼容API、Anthropic 兼容 API 中,來推動 Interleaved Thinking 的廣泛支持
![]()
相關背景
11 月在紐約 AI.Engineer Summit,MiniMax 研究員 Olive 講了 Interleaved Thinking
![]()
Olive 在 AI.Engineer Summit 上的分享,圖中的 ppt 和 ds3.2 頗有相似
然后挨個給生態(tài)里的工具提 PR:
?
Cline、RooCode: 讓 VS Code 插件支持 Interleaved Thinking?
Kilo Code: 優(yōu)化多輪對話的狀態(tài)保持邏輯?
OpenRouter、Ollama: 推動平臺層面跟進支持
Cline 和 Kilo Code 官方都發(fā)推確認了
![]()
Cline 官方的確認推文
Kilo Code 官方的確認推文
現(xiàn)在這些平臺上,MiniMax M2 是第一個正確支持 Interleaved Thinking 的開源模型
對于其他支持這個機制的模型,比如 DeepSeek V3.2、Kimi K2,直接就能用了。算是給這個這種 thinking,造了個朋友圈
MiniMax 還開源了 Mini-Agent,一個支持 Interleaved Thinking 的 Coding CLI,700+ Star
![]()
Mini-Agent 項目
,開發(fā)者容易踩坑 MiniMax 還專門寫了篇文章,講怎么在不同 API 格式下正確實現(xiàn) Interleaved Thinking 算是手把手教學了
最后
Interleaved Thinking 的核心就一句話:
保留推理狀態(tài),讓模型在多輪工具調(diào)用中持續(xù)累積理解
最開始的時候,我們對于 Agent 的期待,是它能不能使用工具
然后看到了 ToolFormer 論文、看到了 Plugin、Function Call、JSON Mode
直到去年 8 月,OpenAI 宣布可以在 Structured Outputs 的嚴格模式下,做到 100% 的成功調(diào)用
![]()
OpenAI 的 Structured Outputs 公告: Introducing Structured Outputs in the API
而現(xiàn)在,我們的思考變成了「調(diào)用工具時,如何保持連貫思考」,剛剛結(jié)束的 AWS re:invent 大會上,主題也便是 Agentic AI
![]()
轉(zhuǎn)眼三年,有點恍惚...
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.