<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      亞馬遜把模型訓練成本砍了57%,靠的竟是"自己給自己打分"

      0
      分享至


      工具調用(tool calling)是AI Agent真正干活的能力。查數據庫、觸發工作流、拉實時數據、替用戶執行操作——這些都不是靠模型瞎編能搞定的。但基礎模型經常幻覺出不存在工具、傳錯參數、該問清楚的時候硬要上。這些故障直接堵死了生產部署的路。

      亞馬遜云科技(Amazon Web Services)最近放出一組數據:用無服務器模型定制功能,在Amazon SageMaker AI上微調后的模型,工具調用獎勵分比基礎模型高出57%——而且是在訓練時完全沒見過的場景里測出來的。

      為什么強化學習特別適合修工具調用的bug

      工具調用有個天然優勢:對錯可驗證。模型有沒有調用正確函數、參數填沒填對,一目了然。這種"可驗證獎勵"正好對應SageMaker AI支持的RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵強化學習)。

      RLVR的運作邏輯像一場自我糾錯的游戲。模型對每個提示生成8個候選回答,獎勵函數打分驗證,再用GRPO(Group Relative Policy Optimization,組相對策略優化)更新策略——簡單說,就是讓模型多試幾次,記住高分答案的套路。

      自己搭強化學習管線完全是另一回事。GPU采購、rollout和訓練階段的內存編排、獎勵基礎設施、檢查點管理,這些運維負擔堆起來能壓垮一個小團隊。超參數敏感更是隱形殺手。SageMaker AI把臟活攬走,用戶只盯模型、數據和獎勵函數三樣東西。

      三類Agent行為的訓練數據怎么準備

      這次演示用的是Qwen 2.5 7B Instruct,訓練數據覆蓋了三種典型行為:主動調用工具、請求澄清信息、以及拒絕執行。每種行為都需要精心設計的樣本,但RLVR和SFT(Supervised Fine-Tuning,監督微調)的吃數據方式完全不同。

      SFT需要人工標注的范例——"這種情況該調用""這種情況該問""這種情況該拒"。但SFT的軟肋是泛化:它學的是具體模式,遇到訓練數據里沒出現過的決策邊界容易懵。

      RLVR不喂標準答案,而是讓模型自己探索。生成8個候選,獎勵函數告訴它哪個好,GRPO讓它記住"好"的規律。久而久之,模型不僅學會工具調用的格式,還學會了"什么時候該動手、什么時候該開口問"的判斷力。

      獎勵函數的分層打分設計

      獎勵函數是RLVR的裁判。亞馬遜團隊設計了分層評分:格式正確性、參數完整性、執行結果準確性,每層對應不同權重。這種細粒度反饋比單一的"對/錯"信號更能引導模型學習。

      訓練配置和結果解讀通過集成MLflow跟蹤。SageMaker AI支持的模型家族包括Amazon Nova、GPT-OSS、Llama、Qwen、DeepSeek,技術棧覆蓋SFT、DPO(Direct Preference Optimization,直接偏好優化)、RLVR、RLAIF(Reinforcement Learning from AI Feedback,AI反饋強化學習)。

      評估環節用了held-out數據,包含訓練時未見過的工具。57%的提升是在這種零樣本場景下測得的——這意味著模型學到了可遷移的決策邏輯,而不只是記住了訓練集里的特定工具。

      部署路徑:從訓練到生產的最后一步

      微調完成后,模型通過SageMaker AI的端點部署。無服務器定制功能意味著按需付費,沒有閑置GPU在燒預算。對于工具調用這類需要快速響應的場景,冷啟動延遲和并發擴展能力是關鍵指標。

      亞馬遜工程師在博客里提到一個細節:GRPO的組內比較機制讓模型對"邊緣案例"更敏感。當8個候選里有3個高分、5個低分時,模型會重點分析那3個做對了什么——這種自我反思式的學習,比人工標注的邊界案例更有效。

      工具調用準確率從"能跑demo"提升到"敢上生產",中間差的不只是幾個百分點,而是用戶對Agent的信任閾值。57%的獎勵分提升背后,是模型從"背答案"到"懂規則"的質變。當你的Agent下次面對一個它沒見過的API時,你希望它硬猜還是開口問?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      “最后通牒”沒最后,特朗普的“狼來了戰略”?“I LOVE油,但停戰能讓美國人開心”

      “最后通牒”沒最后,特朗普的“狼來了戰略”?“I LOVE油,但停戰能讓美國人開心”

      紅星新聞
      2026-04-07 16:25:07
      最新:烏克蘭收復庫皮揚斯克北部失地!推進30公里

      最新:烏克蘭收復庫皮揚斯克北部失地!推進30公里

      項鵬飛
      2026-04-07 19:31:46
      《爸爸4》阿拉蕾長大了!13歲驚人美貌撞臉田曦薇 仙氣神顏曝光

      《爸爸4》阿拉蕾長大了!13歲驚人美貌撞臉田曦薇 仙氣神顏曝光

      ETtoday星光云
      2026-04-07 11:14:04
      13歲小紅軍過草地時,因尿急去方便,回來卻發現茫茫草地空無一人

      13歲小紅軍過草地時,因尿急去方便,回來卻發現茫茫草地空無一人

      興趣知識
      2026-04-07 18:11:46
      4倍大牛股,凈利最高預增超87倍

      4倍大牛股,凈利最高預增超87倍

      21世紀經濟報道
      2026-04-07 20:24:27
      張本智和這段采訪的含金量還在上升,他評價松島和王楚欽很到位

      張本智和這段采訪的含金量還在上升,他評價松島和王楚欽很到位

      李汪手工制作
      2026-04-07 08:58:14
      繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

      繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

      潮鹿逐夢
      2026-04-02 12:31:48
      美媒:被擊落美戰機兩名獲救人員在德國接受治療

      美媒:被擊落美戰機兩名獲救人員在德國接受治療

      新京報
      2026-04-06 22:21:04
      突發!王文靈任上被查

      突發!王文靈任上被查

      中國基金報
      2026-04-07 18:47:22
      罕見,蘋果突然發布神秘更新!

      罕見,蘋果突然發布神秘更新!

      XCiOS俱樂部
      2026-04-07 10:24:24
      伊朗設拉子傳出劇烈爆炸聲

      伊朗設拉子傳出劇烈爆炸聲

      財聯社
      2026-04-07 12:16:21
      震撼!騰訊直接下場招13歲產品經理,硅谷3500億美金巨頭只要高中生!大學四年學的東西AI全給淘汰了

      震撼!騰訊直接下場招13歲產品經理,硅谷3500億美金巨頭只要高中生!大學四年學的東西AI全給淘汰了

      新浪財經
      2026-04-04 00:42:17
      全球第一!再等1天來襲,99秒即可滿電,媲美保時捷帕拉梅拉,僅售9萬多

      全球第一!再等1天來襲,99秒即可滿電,媲美保時捷帕拉梅拉,僅售9萬多

      隔壁說車老王
      2026-04-07 08:11:49
      美國第一夫人梅拉尼婭竟聲稱“開戰是為了伊朗兒童的未來”,網友怒嗆:所以把他們炸死?

      美國第一夫人梅拉尼婭竟聲稱“開戰是為了伊朗兒童的未來”,網友怒嗆:所以把他們炸死?

      極目新聞
      2026-04-07 13:50:54
      美股期貨全線跳水,美股芯片股盤前普跌,加密貨幣集體殺跌,原油拉升反彈

      美股期貨全線跳水,美股芯片股盤前普跌,加密貨幣集體殺跌,原油拉升反彈

      21世紀經濟報道
      2026-04-07 19:36:56
      蘋果iPhone 18 Pro與折疊屏iPhone新機模曝光,設計基本定型

      蘋果iPhone 18 Pro與折疊屏iPhone新機模曝光,設計基本定型

      科技獸
      2026-04-07 22:01:54
      美拯救大兵“Bravo”更多驚險細節曝光:靠尋呼機式定位器求救,回答私密問題驗身

      美拯救大兵“Bravo”更多驚險細節曝光:靠尋呼機式定位器求救,回答私密問題驗身

      紅星新聞
      2026-04-07 13:13:17
      安徽6歲女童遇害后續!父親首次回應:與女子無仇,網上均為謠言

      安徽6歲女童遇害后續!父親首次回應:與女子無仇,網上均為謠言

      奇思妙想草葉君
      2026-04-07 18:14:54
      NBA官宣周最佳:亞歷山大布朗分別當選 杜蘭特弗拉格文班等獲提名

      NBA官宣周最佳:亞歷山大布朗分別當選 杜蘭特弗拉格文班等獲提名

      羅說NBA
      2026-04-07 05:26:48
      2026-04-07 22:36:49
      閃存獵手
      閃存獵手
      全網蹲好價的野生捕手,算力與羊毛都不可辜負。
      882文章數 5關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      游戲
      教育
      本地
      藝術
      軍事航空

      重磅!寶可夢系列最新作本周登陸Switch平臺 正式開玩

      教育要聞

      第一個「寫進政府工作報告」的春假,研學賽道加速分化

      本地新聞

      跟著歌聲游安徽,聽古村回響

      藝術要聞

      美麗風光看不盡

      軍事要聞

      美軍營救飛行員出動155架飛機

      無障礙瀏覽 進入關懷版