![]()
SimpleTIR正是為了解決多輪工具調(diào)用中的訓(xùn)練崩潰問題。
![]()
如果你曾用多輪 RL 訓(xùn)練大模型做工具調(diào)用,多半見過這樣的尷尬場(chǎng)面:
“在某個(gè)樣本中,模型第 1 輪思路清晰,第 2 輪開始胡言亂語,第 3 輪直接輸出一堆亂碼。訓(xùn)練到后期,模型性能像過山車一樣垂直下墜。”
SimpleTIR(https://arxiv.org/abs/2509.02479v1)正是為了解決多輪工具調(diào)用中的訓(xùn)練崩潰問題。下面帶你拆解一下它的關(guān)鍵思路。
01
為什么多輪會(huì)“崩”?
作者用一句話點(diǎn)破:“分布偏移 + 低概率 token 的鏈?zhǔn)窖┍馈?/b>。
偏移:外部工具(Python 解釋器、搜索引擎)返回的結(jié)果,跟模型預(yù)訓(xùn)練時(shí)的語料分布差距可能較大。
雪崩:這些 OOD(Out-of-distribution)token 被當(dāng)成下一輪輸入,模型越采越偏,最終在第 3~4 輪吐出亂碼或直接停止生成(輸出eos token)。
梯度爆炸:低概率 token 讓重要性采樣比值暴漲,梯度范數(shù)瞬間拉滿,訓(xùn)練直接炸裂。
現(xiàn)場(chǎng)觀測(cè)到的 token log-prob 曲線就像這樣:
![]()
(Turn 1 還自信滿滿,Turn 4 直接一瀉千里)
02
SimpleTIR 的“定海神針”——void turn 過濾
作者沒有硬懟梯度裁剪,也沒有加 KL 正則,而是祭出一個(gè)極簡(jiǎn) heuristics:
只要某一回合既沒生成可執(zhí)行代碼塊,也沒給出最終答案,就判定為“無效輪(void turn)”,整條軌跡直接丟進(jìn)垃圾桶,不拿來更新策略。
這一招軌跡過濾同時(shí)掐斷了兩條崩潰鏈路:
梯度爆炸:無效輪往往伴隨極低概率 token,扔掉它們等于從源頭拔掉高幅值梯度。
信用分配錯(cuò)位:無效輪之后的失敗不應(yīng)懲罰前面正確的推理步驟,過濾后模型不再“一朝被蛇咬,十年怕井繩”。
03
訓(xùn)練現(xiàn)場(chǎng)直擊:一條穩(wěn)如老狗的曲線
在 Qwen2.5-7B 上,從零開始跑純強(qiáng)化學(xué)習(xí)(Zero RL),不借助任何冷啟動(dòng)和監(jiān)督微調(diào):
粉色曲線:SimpleTIR(啟用無效輪過濾)
紫色曲線:Na?ve Multi-turn(直接多輪 RL)
![]()
可以清晰看到,SimpleTIR 的曲線一路向右上方勻速爬升,梯度范數(shù)幾乎零尖峰;簡(jiǎn)單的多輪訓(xùn)練則在第 300 步左右開始崩潰。
04
多輪策略的可視化:三種“人類級(jí)”思考范式
更妙的是,SimpleTIR 的訓(xùn)練催生了多樣化的推理行為,作者用 Claude-3.7-Sonnet 做了統(tǒng)計(jì):
漸進(jìn)推理(Progressive Reasoning):寫若干腳本逐一解決各個(gè)子命題,再完成最終解答。
?交叉驗(yàn)證(Cross Validation):同一問題寫兩份代碼互檢,防止一錯(cuò)到底。
錯(cuò)誤回環(huán)(Error Correction Loop):運(yùn)行報(bào)錯(cuò)→定位 bug→重寫代碼→再跑。
這些策略并非人為預(yù)設(shè),而是模型在無監(jiān)督獎(jiǎng)勵(lì)下自發(fā)涌現(xiàn),算是 Zero RL 的“副作用驚喜”。
05
寫在最后:一個(gè)更“工程友好”的多輪 RL 范式
SimpleTIR 的核心貢獻(xiàn)不在于刷爆了多少分,而在于它給出了一條可復(fù)制、工程友好的多輪工具調(diào)用訓(xùn)練技巧:
Zero RL:直接基于 base 模型,無需昂貴的人類標(biāo)注進(jìn)行冷啟動(dòng)。
即插即用:無效輪檢測(cè)邏輯僅 10 行代碼,可無縫加入任意 RL 框架。
可擴(kuò)展:對(duì)于不同模型參數(shù)量(7B→32B)均能保持訓(xùn)練穩(wěn)定。
SimpleTIR 的核心實(shí)現(xiàn)已經(jīng)開源,可通過下方鏈接直接查看源代碼與實(shí)現(xiàn)細(xì)節(jié)。
代碼鏈接:https://github.com/ltzheng/SimpleTIR/tree/main
在 LLM 多輪工具調(diào)用里,只要模型產(chǎn)生“void turn”,既不生成可執(zhí)行代碼,也不給出最終答案,就把這整條軌跡當(dāng)作直接丟掉,便能實(shí)現(xiàn)穩(wěn)定多輪訓(xùn)練——這大概就是 SimpleTIR 帶來的最大啟示。
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.