<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      研究發現:AI 智能體無法自學新技能,只有人類才能教會它們技能

      0
      分享至

      據《The Register》報道,授人以魚不如授人以漁,對 AI 智能體而言也是同理:教會它如何搜集信息,它就能自己持續獲取數據;但如果讓它完全自主摸索,結果往往只會更糟。

      AI 智能體是一類機器學習模型(例如 Claude Opus 4.6),它們可通過 CLI 控制層(例如 Claude Code)調用其他軟件,并以迭代循環的方式運行。這類智能體可被指派處理各類任務,其中一些可能并不在其訓練數據覆蓋范圍內。

      當缺乏相應訓練時,我們可以為智能體賦予新的“技能”——這些技能本質上是補充的參考資料,用于讓智能體具備特定領域的能力。此處所說的“技能”,包括指令、元數據,以及智能體加載用于獲取程序性知識的腳本、模板等其他資源。



      例如,我們可以通過一項技能指導 AI 智能體如何處理 PDF 文件,這項技能包含 Markdown 文本、代碼、依賴庫以及相關 API 參考資料。盡管智能體從訓練數據中可能已掌握一定處理方法,但只有在更具體的指導下,它的表現才會更出色。

      但近期一項名為《SkillsBench:基準測試智能體技能在多任務中的表現效果》的研究表明:要求智能體自主生成這類技能,結果往往令人失望。人工智能中的“智能”成分,在一定程度上被夸大了(The "intelligence" part of artificial intelligence is somewhat overstated)。

      至少對于大語言模型(LLM)在推理階段而言確實如此——也就是訓練完成后的實際使用階段,而非訓練過程本身。



      全新標桿

      某些機器學習形式(如深度學習)的應用方式,可使神經網絡模型在電子游戲等特定領域任務中不斷提升性能。

      AI 智能體呈現爆發式增長——例如 Anthropic 的 Claude Code、谷歌的 Gemini CLI、OpenAI 的 Codex CLI,這推動了用于增強智能體能力的各類技能快速發展,技能庫如雨后春筍般不斷涌現。

      而鑒于 OpenClaw 智能體已在 Moltbook 自動化社區網絡中實現相互學習,如今早已到了該評估它們學習效果究竟如何的時候(And given how OpenClaw agents have been teaching each other in the Moltbook automated community network, it seems well past time to figure out how good a job they do at it)。



      迄今為止,尚無統一方法來檢驗這些技能是否能兌現其承諾。為此,一支由40名計算機科學家組成的團隊著手開發了一套基準測試,用以評估智能體技能在推理過程中如何提升性能。

      該團隊成員來自亞馬遜、BenchFlow、字節跳動、富士康、Zennity等企業,以及卡內基梅隆大學、斯坦福大學、加州大學伯克利分校、牛津大學等多所高校。

      這項研究由智能體評測初創公司BenchFlow的創始人李祥一(音譯)牽頭,研究團隊開發了名為SkillsBench的測試,并在上述預印本論文中闡述了相關研究成果。



      研究人員針對7種智能體模型配置、84項任務、共7308條執行軌跡展開了分析——每條軌跡代表一個智能體在特定技能條件下嘗試解決單個任務的過程。

      團隊測試了三種條件:無技能、人工精選技能和自主生成技能(Three conditions were tested: no skills, curated skills, and self-generated skills)。

      使用人工設計的精選技能的智能體,其任務完成率平均比無技能智能體高出16.2%,不過數據波動較大(The agents using curated skills – designed by people – completed tasks 16.2 percent more frequently than no-skill agents on average, though with high variance)。



      研究中列舉了一個洪水風險分析任務的例子:不具備技能的智能體未采用合適的統計方法,通過率僅為2.9%

      而在配備精選技能后——即指導智能體使用皮爾遜Ⅲ型概率分布、遵循美國地質調查局標準方法,并明確調用SciPy函數與參數解讀等細節——其任務通過率提升至80%。

      從具體知識領域來看,醫療健康領域(提升51.9個百分點)和制造業領域(提升41.9個百分點)的人工定制技能對AI智能體幫助最大,而數學(提升6.0個百分點)和軟件工程(提升4.5個百分點)相關技能帶來的提升較小。



      研究作者解釋道,這是因為需要專業知識的領域在訓練數據中占比通常偏低,因此由人類為這些領域的智能體補充技能是合理有效的。

      并且在補充技能時,少即是多:只包含少量(2–3個)模塊的技能,效果遠優于大量數據堆砌(And when doing so, less is more – skills with only a few (2-3) modules performed better than massive data dumps)。

      這一點同樣適用于模型規模——經過人工整理的技能能讓小模型在任務完成率上越級表現(That applies to model scale too – curated skills help smaller models punch above their weight class in terms of task completion)。



      配備技能的 Anthropic Claude Haiku 4.5 模型(27.7%)表現優于無技能的 Haiku 4.5(11%),也優于無技能的 Claude Opus 4.5(22%)。

      當研究人員讓智能體自學技能時,要求它們:

      - 分析任務需求、領域知識和所需API;

      - 編寫 1–5 個模塊化技能文檔來解決任務;

      - 將每個技能保存為 Markdown 文件;

      - 再利用生成的參考資料完成任務。



      結果是:嘗試自學的智能體,表現反而比完全不嘗試自學的更差(Agents that tried this did worse than if they hadn't tried at all)。

      至少就目前而言,人工智能革命無法完全自動化——機器仍需要人類導師為其指引正確方向。

      聲明:取材網絡,謹慎辨別

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      紅軍三大主力會師,幾十萬大軍誰來指揮?周恩來深夜問了賀龍一句話,賀老總的回答太絕了

      紅軍三大主力會師,幾十萬大軍誰來指揮?周恩來深夜問了賀龍一句話,賀老總的回答太絕了

      歷史回憶室
      2026-02-10 23:16:05
      1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

      1986年陳永貴病逝,追悼會規格成難題,鄧小平只說了一句話,全場安靜

      寄史言志
      2026-01-04 16:34:31
      美國超級富豪劃出三條紅線,警告中美不要碰觸,否則后果自負

      美國超級富豪劃出三條紅線,警告中美不要碰觸,否則后果自負

      梁濆愛玩車
      2026-02-12 22:36:00
      中國臺灣女童在日本街頭拍照時遭日本女子故意撞倒,施暴者先肘擊男性再推倒兩名小女孩,疑似日本“撞人族” 專挑弱勢目標沖撞

      中國臺灣女童在日本街頭拍照時遭日本女子故意撞倒,施暴者先肘擊男性再推倒兩名小女孩,疑似日本“撞人族” 專挑弱勢目標沖撞

      觀威海
      2026-02-27 10:07:13
      李金羽殺瘋了!官宣陳彬彬之后,還有蓉城王牌中衛,正式沖擊亞冠

      李金羽殺瘋了!官宣陳彬彬之后,還有蓉城王牌中衛,正式沖擊亞冠

      羅掌柜體育
      2026-02-26 10:06:41
      春節假期結束一天,鹿哈官宣得女,感謝了鹿晗,曾7個月賺3500萬

      春節假期結束一天,鹿哈官宣得女,感謝了鹿晗,曾7個月賺3500萬

      叨嘮
      2026-02-25 16:37:17
      夸美國空氣香甜的楊舒平,已被美驅逐出境,如今回國下場怎么樣了

      夸美國空氣香甜的楊舒平,已被美驅逐出境,如今回國下場怎么樣了

      談史論天地
      2026-02-07 13:20:03
      直接拒辦!荷蘭硬剛歐洲殘泳賽:俄白運動員參賽,誰都不歡迎

      直接拒辦!荷蘭硬剛歐洲殘泳賽:俄白運動員參賽,誰都不歡迎

      老馬拉車莫少裝
      2026-02-26 21:02:57
      從“人間水蜜桃”到寸頭素人:金子涵的五年,一場被圍觀的墜落

      從“人間水蜜桃”到寸頭素人:金子涵的五年,一場被圍觀的墜落

      生如稗草
      2026-02-26 09:27:45
      臺積電前高管評價中國芯片:東西做的不好,但關鍵時期能拿出來用

      臺積電前高管評價中國芯片:東西做的不好,但關鍵時期能拿出來用

      星星會墜落
      2026-02-26 20:53:30
      美國記者問周總理:中國人為什么喜歡低頭走路?總理如何機智回復

      美國記者問周總理:中國人為什么喜歡低頭走路?總理如何機智回復

      棠棣分享
      2026-02-26 16:21:44
      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      14億人都不會忘卻!揭開核酸大王張核子的真面具:權力變現大公

      大魚簡科
      2026-02-07 09:52:29
      他因病不滿足軍銜晉升,45歲開始離休,休養了整整45年,活到90歲

      他因病不滿足軍銜晉升,45歲開始離休,休養了整整45年,活到90歲

      興趣知識
      2026-01-12 16:42:04
      官宣!正式加盟,連續9年全水啊,湖人終于醒目,佩林卡有救了

      官宣!正式加盟,連續9年全水啊,湖人終于醒目,佩林卡有救了

      球童無忌
      2026-02-26 16:01:13
      利好蘋果,不利好國產,智能手機領域寒風刮起

      利好蘋果,不利好國產,智能手機領域寒風刮起

      科技鋒說
      2026-02-27 08:57:10
      千金易得一將難求,張鎮麟軟,王浩然嫩,王俊杰的替身依然難尋

      千金易得一將難求,張鎮麟軟,王浩然嫩,王俊杰的替身依然難尋

      逗比演員說體育
      2026-02-27 09:49:54
      最后10天:2026年北京搖號倒計時,中簽率背后殘酷真相與破局之道

      最后10天:2026年北京搖號倒計時,中簽率背后殘酷真相與破局之道

      小怪吃美食
      2026-02-26 18:06:17
      最可惜的十位革命先烈,每一位都足以改變歷史

      最可惜的十位革命先烈,每一位都足以改變歷史

      【歷史客棧】
      2026-02-25 10:00:31
      “萬年總召”柯建銘交棒,董智森:目前民進黨最大的資源只剩下賴清德

      “萬年總召”柯建銘交棒,董智森:目前民進黨最大的資源只剩下賴清德

      海峽導報社
      2026-02-26 10:10:02
      秦檜32世孫發聲:讓祖宗跪岳飛我認了,憑什么還要跪岳飛的母親?

      秦檜32世孫發聲:讓祖宗跪岳飛我認了,憑什么還要跪岳飛的母親?

      不八卦掌門人
      2026-02-23 13:35:25
      2026-02-27 10:39:00
      談點世
      談點世
      說說國內國外,聊聊世間百態。
      2959文章數 4383關注度
      往期回顧 全部

      科技要聞

      英偉達業績亮眼仍跌5% 兩大因素成核心隱憂

      頭條要聞

      媒體:驕傲十年后 德國不得不正視中國

      頭條要聞

      媒體:驕傲十年后 德國不得不正視中國

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      繼網暴谷愛凌后 美國欲沒收其全部收入

      財經要聞

      魅族手機,終成棄子?

      汽車要聞

      40歲的吉利,不惑于內外

      態度原創

      旅游
      本地
      家居
      房產
      公開課

      旅游要聞

      昆明西華園海棠盛放 市民踏青賞花

      本地新聞

      津南好·四時總相宜

      家居要聞

      素色肌理 品意式格調

      房產要聞

      2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版