網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

大模型如何「在思考中使用工具」｜Interleaved Thinking

2025-12-04 16:55:31　來源: 賽博禪心

北京舉報

分享至

DeepSeek V3.2 提到了一個東西，屬于核心迭代
「在思考中，使用工具」
技術報告里，把這個叫Thinking in Tool Use

在這里與大家說道，這東西的由來、演進和現(xiàn)狀，方便吹牛逼用

這里還有份報告解讀：

所謂「Thinking in Tool-Use」
顧名思義，就是大模型一邊調(diào)用工具，一邊推理，多次循環(huán)后，最后輸出答案

行業(yè)里，常把這個叫做 Interleaved Thinking，本文沿用這個說法

類似的東西，最早是 Anthropic 提出的
今年初發(fā)布的，叫 Extended Thinking。額外說明：o1 不算，那個沒工具調(diào)用

相關內(nèi)容，發(fā)表于 25年2月24日：《Claude’s extended thinking》

在開源模型里，最早是 OpenAI 開源的 oss 最先支持的
說法是 interleaving tool calls within the CoT

相關內(nèi)容，發(fā)表于 25年8月5日：gpt-oss Model Card

之后，國內(nèi)的幾家模型廠，也給到了類似說法：

? MiniMax M2 叫它「交錯思維鏈」
? Kimi K2 叫它「邊思考邊使用工具」
? DeepSeek v3.2 叫它「思考模式下的工具調(diào)用」

各家說法不同，本質(zhì)是一件事
大模型，如何在保留推理狀態(tài)的同時，進行多次工具調(diào)用

有關交錯思維鏈，MiniMax 前段時間還寫了篇文章，強調(diào)這東西的重要性，具體后面細說

技術原理

先說下推理模型是怎么使用工具的

舉個例子，你問模型一個問題：
一臺最新蘋果手機，和兩臺最新的豆包手機，誰更貴？

以最開始的 o1 模型為例，o1 這個模型并不能進行工具調(diào)用，只能回答
對不起，我無法訪問網(wǎng)絡，并不知道誰更貴

再之后，一些朋友對 o1 類的模型進行了工程優(yōu)化（比如具有聯(lián)網(wǎng)能力的 DeepSeek R1），讓他能夠在回答前，先搜索一些問題，然后多次調(diào)用模型，流程就變成了這樣：
先搜最新的蘋果手機 → 讀結(jié)果 → 決定下一步搜什么 → 再搜索 → 再讀結(jié)果 → ... → 整理答案

標準的工具調(diào)用流程

但實際上...在處理先搜最新的蘋果手機這一步中，就會發(fā)現(xiàn)蘋果有多款機型
如果只拿最新的 iPhone 17 比較，肯定不妥，畢竟還有 air 和 pro

作為人的話，可能會中間留個心眼：最新的蘋果手機，需要考慮系列嗎？
那么，如果是大模型，會記住這些東西嗎？

早期做法：丟掉
具體來說：忘掉所有的中間思考，只保留結(jié)果和部分總結(jié)
這部分的具體描述，可以參加 OpenAI 的 o1 文檔：思維鏈是隱藏的

早期做法：每輪丟棄推理狀態(tài)

所以，在進行最終判斷的時候，大模型的上文可能只有：

? iPhone 17 的標準定價為 5999
? 豆包手機（努比亞）的標準定價為 3499

然后得出結(jié)論：

iPhone 17，不如兩臺豆包手機貴

但....

作為人的話，我們會保留個心眼，思考過程也記著：

? iPhone 17 的標準定價為 5999（同期發(fā)售的還有 iPhone Air：7999；Pro：8999）
? 豆包手機（努比亞代工）的標準定價為 3499（目前無貨，閑魚 4499）

然后出結(jié)論：

iPhone 17，不如兩臺豆包手機貴 Air 和 Pro 則貴于兩臺豆包

這種「留心眼」的做法，就是 Interleaved Thinking
模型調(diào)用工具 → 拿到結(jié)果 → 繼續(xù)思考（帶著之前的推理）→ 再調(diào)用工具 → 繼續(xù)思考...

在這里，計劃、假設、中間結(jié)論都會被帶到下一輪

Interleaved Thinking：保留推理狀態(tài)

當然，這里為了方便表達，我對原理進行了極大的刪減
實際的做法和流程都會更為復雜
比如...這些推理內(nèi)容，在何時才會舍棄？

以DeepSeek v3.2為例，論文里是這么描述的：
只有新用戶消息到來時，才丟棄推理內(nèi)容，工具返回結(jié)果不觸發(fā)丟棄

...這樣的細節(jié)還有許多，還是挺有工程實踐&復雜度的

效果差距

對于「保留推理狀態(tài) vs 丟棄推理狀態(tài)」，會有多少差距呢？
對于長鏈路 Agent 任務，最高能有 +35% 到 +40%
數(shù)據(jù)來自于 MiniMax 的對比測試數(shù)據(jù)

對比數(shù)據(jù)

? SWE-Bench Verified：69.4 vs. 67.2， +3.3%
? 2：87 vs. 64， +35.9%
? BrowseComp：44.0 vs. 31.4， +40.1%
? GAIA：75.7 vs. 67.9， +11.5%
? xBench：72.0 vs. 66.0， +9.1%

至于為什么差距這么大？

可以這么理解：
一旦丟棄了之前的推理狀態(tài)，模型的累積理解能力會下降，自我修正能力會減弱

這東西，在長程工具調(diào)用和「運行–修復」循環(huán)中尤其明顯

世界是個草臺班子

這里有個現(xiàn)實問題：
很多項目使用了 thinking 模型，但工具的連續(xù)調(diào)用總是出問題
而且...可能...甚至還沒發(fā)現(xiàn)

這個其實是 OpenAI 的鍋

OpenAI 有多套 API 調(diào)用方法：

? Completions （不再建議使用）
? Chat Completions
? Assistants API （壓根沒人用）
? Responses API

目前用的最廣泛的的，是 Chat Completions api
但... 這玩意兒壓根沒有 thinking 相關的字段
于是大家只能在 assistant message 里假裝 thinking

Chat Completions API 的 assistant message 結(jié)構(gòu)，沒有 thinking 相關字段

新的 Responses API 確實支持 reasoning 配置
但它返回的是 reasoning.encrypted_content——加密版本的推理內(nèi)容
推理過程？更不存在的

Responses API 的 reasoning 配置，注意那個 encrypted_content

能用于多輪對話狀態(tài)保持，但你看不到原始推理過程

你說 OpenAI 開源的那個 oss 支持？
哈哈哈哈哈哈哈哈哈哈
那套鬼東西，根本沒定義接口，怎么實現(xiàn)你就自己看著來吧

OpenAI 的 oss

按照慣性，大家都照著 OpenAI 的 API 規(guī)范寫代碼
但由于 OpenAI 在這個方面過于不干人事兒
各家廠商在這個不完整的規(guī)范上各自魔改

仔細看，你會發(fā)現(xiàn).... DeepSeek R1 的 Thinking 結(jié)構(gòu)，和 OpenAI 的也都不一樣
然后同樣的模型，在硅基流動、火山、官方 api 上，響應結(jié)構(gòu)甚至也都不一樣

OpenAI API vs DeepSeek API

于是...調(diào)用 API 的時候，thinking 壓根沒放在上下文
哈哈哈哈哈哈哈哈哈哈

MiniMax 的貢獻

事情的另一個角度，MiniMax 反倒是 Thinking 模型的標準化，做了許多生態(tài)上的工作，比如與OpenRouter、Ollama、Droid、Vercel、Cline合作，共同推進并實現(xiàn)這一功能的跨平臺支持。

具體的可以參見，希望通過推動統(tǒng)一標準，在應用、OpenAI 兼容API、Anthropic 兼容 API 中，來推動 Interleaved Thinking 的廣泛支持

相關背景

11 月在紐約 AI.Engineer Summit，MiniMax 研究員 Olive 講了 Interleaved Thinking

Olive 在 AI.Engineer Summit 上的分享，圖中的 ppt 和 ds3.2 頗有相似

然后挨個給生態(tài)里的工具提 PR：

? Cline、RooCode ：讓 VS Code 插件支持 Interleaved Thinking
? Kilo Code ：優(yōu)化多輪對話的狀態(tài)保持邏輯
? OpenRouter、Ollama ：推動平臺層面跟進支持

MiniMax 給 Kilo Code 提的 PR

Cline 和 Kilo Code 官方都發(fā)推確認了

Cline 官方的確認推文 Kilo Code 官方的確認推文

現(xiàn)在這些平臺上，MiniMax M2 是第一個正確支持 Interleaved Thinking 的開源模型

對于其他支持這個機制的模型，比如 DeepSeek V3.2、Kimi K2，直接就能用了。算是給這個這種 thinking，造了個朋友圈

MiniMax 還開源了 Mini-Agent，一個支持 Interleaved Thinking 的 Coding CLI，700+ Star

Mini-Agent 項目

，開發(fā)者容易踩坑 MiniMax 還專門寫了篇文章，講怎么在不同 API 格式下正確實現(xiàn) Interleaved Thinking 算是手把手教學了

最后

Interleaved Thinking 的核心就一句話：
保留推理狀態(tài)，讓模型在多輪工具調(diào)用中持續(xù)累積理解

最開始的時候，我們對于 Agent 的期待，是它能不能使用工具
然后看到了 ToolFormer 論文、看到了 Plugin、Function Call、JSON Mode
直到去年 8 月，OpenAI 宣布可以在 Structured Outputs 的嚴格模式下，做到 100% 的成功調(diào)用

OpenAI 的 Structured Outputs 公告: Introducing Structured Outputs in the API

而現(xiàn)在，我們的思考變成了「調(diào)用工具時，如何保持連貫思考」，剛剛結(jié)束的 AWS re:invent 大會上，主題也便是 Agentic AI

轉(zhuǎn)眼三年，有點恍惚...

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.