網易首頁 > 網易號 > 正文申請入駐

亞馬遜把模型訓練成本砍了57%，靠的竟是"自己給自己打分"

2026-04-07 02:05:18　來源: 閃存獵手

北京舉報

分享至

工具調用（tool calling）是AI Agent真正干活的能力。查數據庫、觸發工作流、拉實時數據、替用戶執行操作——這些都不是靠模型瞎編能搞定的。但基礎模型經常幻覺出不存在工具、傳錯參數、該問清楚的時候硬要上。這些故障直接堵死了生產部署的路。

亞馬遜云科技（Amazon Web Services）最近放出一組數據：用無服務器模型定制功能，在Amazon SageMaker AI上微調后的模型，工具調用獎勵分比基礎模型高出57%——而且是在訓練時完全沒見過的場景里測出來的。

為什么強化學習特別適合修工具調用的bug

工具調用有個天然優勢：對錯可驗證。模型有沒有調用正確函數、參數填沒填對，一目了然。這種"可驗證獎勵"正好對應SageMaker AI支持的RLVR（Reinforcement Learning with Verifiable Rewards，可驗證獎勵強化學習）。

RLVR的運作邏輯像一場自我糾錯的游戲。模型對每個提示生成8個候選回答，獎勵函數打分驗證，再用GRPO（Group Relative Policy Optimization，組相對策略優化）更新策略——簡單說，就是讓模型多試幾次，記住高分答案的套路。

自己搭強化學習管線完全是另一回事。GPU采購、rollout和訓練階段的內存編排、獎勵基礎設施、檢查點管理，這些運維負擔堆起來能壓垮一個小團隊。超參數敏感更是隱形殺手。SageMaker AI把臟活攬走，用戶只盯模型、數據和獎勵函數三樣東西。

三類Agent行為的訓練數據怎么準備

這次演示用的是Qwen 2.5 7B Instruct，訓練數據覆蓋了三種典型行為：主動調用工具、請求澄清信息、以及拒絕執行。每種行為都需要精心設計的樣本，但RLVR和SFT（Supervised Fine-Tuning，監督微調）的吃數據方式完全不同。

SFT需要人工標注的范例——"這種情況該調用""這種情況該問""這種情況該拒"。但SFT的軟肋是泛化：它學的是具體模式，遇到訓練數據里沒出現過的決策邊界容易懵。

RLVR不喂標準答案，而是讓模型自己探索。生成8個候選，獎勵函數告訴它哪個好，GRPO讓它記住"好"的規律。久而久之，模型不僅學會工具調用的格式，還學會了"什么時候該動手、什么時候該開口問"的判斷力。

獎勵函數的分層打分設計

獎勵函數是RLVR的裁判。亞馬遜團隊設計了分層評分：格式正確性、參數完整性、執行結果準確性，每層對應不同權重。這種細粒度反饋比單一的"對/錯"信號更能引導模型學習。

訓練配置和結果解讀通過集成MLflow跟蹤。SageMaker AI支持的模型家族包括Amazon Nova、GPT-OSS、Llama、Qwen、DeepSeek，技術棧覆蓋SFT、DPO（Direct Preference Optimization，直接偏好優化）、RLVR、RLAIF（Reinforcement Learning from AI Feedback，AI反饋強化學習）。

評估環節用了held-out數據，包含訓練時未見過的工具。57%的提升是在這種零樣本場景下測得的——這意味著模型學到了可遷移的決策邏輯，而不只是記住了訓練集里的特定工具。

部署路徑：從訓練到生產的最后一步

微調完成后，模型通過SageMaker AI的端點部署。無服務器定制功能意味著按需付費，沒有閑置GPU在燒預算。對于工具調用這類需要快速響應的場景，冷啟動延遲和并發擴展能力是關鍵指標。

亞馬遜工程師在博客里提到一個細節：GRPO的組內比較機制讓模型對"邊緣案例"更敏感。當8個候選里有3個高分、5個低分時，模型會重點分析那3個做對了什么——這種自我反思式的學習，比人工標注的邊界案例更有效。

工具調用準確率從"能跑demo"提升到"敢上生產"，中間差的不只是幾個百分點，而是用戶對Agent的信任閾值。57%的獎勵分提升背后，是模型從"背答案"到"懂規則"的質變。當你的Agent下次面對一個它沒見過的API時，你希望它硬猜還是開口問？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.