![]()
工具調用(tool calling)是AI Agent真正干活的能力。查數據庫、觸發工作流、拉實時數據、替用戶執行操作——這些都不是靠模型瞎編能搞定的。但基礎模型經常幻覺出不存在工具、傳錯參數、該問清楚的時候硬要上。這些故障直接堵死了生產部署的路。
亞馬遜云科技(Amazon Web Services)最近放出一組數據:用無服務器模型定制功能,在Amazon SageMaker AI上微調后的模型,工具調用獎勵分比基礎模型高出57%——而且是在訓練時完全沒見過的場景里測出來的。
為什么強化學習特別適合修工具調用的bug
工具調用有個天然優勢:對錯可驗證。模型有沒有調用正確函數、參數填沒填對,一目了然。這種"可驗證獎勵"正好對應SageMaker AI支持的RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵強化學習)。
RLVR的運作邏輯像一場自我糾錯的游戲。模型對每個提示生成8個候選回答,獎勵函數打分驗證,再用GRPO(Group Relative Policy Optimization,組相對策略優化)更新策略——簡單說,就是讓模型多試幾次,記住高分答案的套路。
自己搭強化學習管線完全是另一回事。GPU采購、rollout和訓練階段的內存編排、獎勵基礎設施、檢查點管理,這些運維負擔堆起來能壓垮一個小團隊。超參數敏感更是隱形殺手。SageMaker AI把臟活攬走,用戶只盯模型、數據和獎勵函數三樣東西。
三類Agent行為的訓練數據怎么準備
這次演示用的是Qwen 2.5 7B Instruct,訓練數據覆蓋了三種典型行為:主動調用工具、請求澄清信息、以及拒絕執行。每種行為都需要精心設計的樣本,但RLVR和SFT(Supervised Fine-Tuning,監督微調)的吃數據方式完全不同。
SFT需要人工標注的范例——"這種情況該調用""這種情況該問""這種情況該拒"。但SFT的軟肋是泛化:它學的是具體模式,遇到訓練數據里沒出現過的決策邊界容易懵。
RLVR不喂標準答案,而是讓模型自己探索。生成8個候選,獎勵函數告訴它哪個好,GRPO讓它記住"好"的規律。久而久之,模型不僅學會工具調用的格式,還學會了"什么時候該動手、什么時候該開口問"的判斷力。
獎勵函數的分層打分設計
獎勵函數是RLVR的裁判。亞馬遜團隊設計了分層評分:格式正確性、參數完整性、執行結果準確性,每層對應不同權重。這種細粒度反饋比單一的"對/錯"信號更能引導模型學習。
訓練配置和結果解讀通過集成MLflow跟蹤。SageMaker AI支持的模型家族包括Amazon Nova、GPT-OSS、Llama、Qwen、DeepSeek,技術棧覆蓋SFT、DPO(Direct Preference Optimization,直接偏好優化)、RLVR、RLAIF(Reinforcement Learning from AI Feedback,AI反饋強化學習)。
評估環節用了held-out數據,包含訓練時未見過的工具。57%的提升是在這種零樣本場景下測得的——這意味著模型學到了可遷移的決策邏輯,而不只是記住了訓練集里的特定工具。
部署路徑:從訓練到生產的最后一步
微調完成后,模型通過SageMaker AI的端點部署。無服務器定制功能意味著按需付費,沒有閑置GPU在燒預算。對于工具調用這類需要快速響應的場景,冷啟動延遲和并發擴展能力是關鍵指標。
亞馬遜工程師在博客里提到一個細節:GRPO的組內比較機制讓模型對"邊緣案例"更敏感。當8個候選里有3個高分、5個低分時,模型會重點分析那3個做對了什么——這種自我反思式的學習,比人工標注的邊界案例更有效。
工具調用準確率從"能跑demo"提升到"敢上生產",中間差的不只是幾個百分點,而是用戶對Agent的信任閾值。57%的獎勵分提升背后,是模型從"背答案"到"懂規則"的質變。當你的Agent下次面對一個它沒見過的API時,你希望它硬猜還是開口問?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.