<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude悄悄更新了Skills生成器,這絕對是一次史詩級升級。

      0
      分享至

        上周直播的時候,發(fā)現(xiàn)Anthropic的skills倉庫居然有更新了。

        點進去一看,然后居然發(fā)現(xiàn)了一個超級剛需的Skills迎來了更新。

        就是這個,甚至可以說是整個Skills生態(tài)的基石。

        Skill-creator。

        可以說,現(xiàn)在小龍蝦的能力能這么強,有一半的原因都要歸功于Skills,而這些Skills能被創(chuàng)造出來,幾乎都要歸功于這個母Skills,Skill-creator。

        我相信,任何一個看過我們過去關于Skills的文章,或者玩過Skills的朋友,都絕對不可能對這個Skill-creator陌生。

        簡單總結就是,這是Anthropic官方出的Skills生成器。

        你可以用嘴描述出你的需求,然后直接用Skill-creator,幫你做成一個Skill。

        如果有不了解的,可以去看一下我們過去的這一篇文章:自認為寫的還是比較詳細的。

        這周終于有時間,詳細翻了一下這次更新的Skill-creator的文檔,然后發(fā)現(xiàn),這次真的可以說,是史詩級更新也不為過,強了太多太多了。

        

        所以我覺得,值得寫一篇文章,來給大家聊聊,這次Skill-creator更新的新特性和新功能。

        真的,所有的skills,都值得重新優(yōu)化一遍。

        非常簡單的說,這次他們一口加了4個全新的能力,分別是:

        1. 評估系統(tǒng),跑完直接告訴你這個skill到底行不行。

        2. 基準測試,把通過率、耗時、token用量,全都量化。

        3. 多代理并行測試,每個測試在干凈的環(huán)境里獨立跑,支持A/B盲評,結果不互相污染。

        4. 描述調優(yōu),可以自動幫你改skill描述,該觸發(fā)的觸發(fā),不該觸發(fā)的就別亂觸發(fā)。

        之前的Skill-creator其實一直有個痛點,就是你生成完的Skills,其實是個黑盒,你完全不知道,這個Skills到底好不好用,它的質量怎么樣,它的觸發(fā)機制合不合理。

        用我們現(xiàn)代經(jīng)常提的工業(yè)化體系來說,就是缺少了一個很重要的東西,評估機制。

        評估太重要了,一個好的評估,是真的可以引領方向的。

        而現(xiàn)在,新版的Skill-creator,直接把整個評估體系,全都補上了。

        我極力推薦大家,一定要更新到最新版。

        更新方式也究極無敵簡單,你直接把這段話,發(fā)給你的Agent就行,無論是Claude code、OpenClaw、OpenCode等等等等:

        https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個skills更新了,幫我更新到最新版本

        對,就這么一句話。

        然后你的Agent,就會自己去更新了。

        

        很快,就更新完了。

        

        我用一個案例,來給大家演示一下新版Skill-creator的能力。

        在之前有一篇文章中,我把Github上的yt-dlp做成了一個Skill,能從YouTube、B站等各種視頻網(wǎng)站下載視頻。

        

        但其實我們后來發(fā)現(xiàn),光能下載視頻還不夠。

        我還希望拿到視頻鏈接之后,能直接生成文字版的講稿。

        而且如果是英文或其他語言的視頻,最好能直接給我中英雙語的講稿文檔。

        所以正好,借著這個機會,我就用skill-creator又搓了一個新skill。

        提示詞很簡單。

        我想創(chuàng)建一個skill,我希望能夠實現(xiàn)我給了一個視頻鏈接,它能夠把文字版的講稿發(fā)給我,如果是別的語言,最好是把原語言版和中文版的講稿文檔給我。

        它會先問你幾個問題,確認需求細節(jié),然后開始幫你設計整個skill。

        

        大概3到5分鐘,這個Skill就設計完了。

        我拿一個OpenClaw創(chuàng)始人的YouTube訪談視頻來試一下。

        

        就給了一個YouTube的鏈接。

        五分鐘后,中文版的講稿就出來了。

        

        但是,其實有個問題。。。

        這一大坨文字堆在一起,字又小又擠。

        根本沒法看。

        這時候你就可以繼續(xù)對話,讓它給你優(yōu)化,幫你改進這個skill。

        

        新版的Skill-creator,在改進的能力上,也有一些提升。

        改進之后的效果:

        

        幾乎完美。

        排版清晰,段落分明,這才像個文檔該有的樣子。

        但這還沒完。

        但這個時候,一個頭疼的問題就來了,我害怕我的skills觸發(fā)會打架。

        因為我現(xiàn)在有兩個skill都跟視頻鏈接相關。

        一個是yt-dlp,負責下載視頻到本地。

        一個是剛做的講稿生成,負責把視頻轉成文字。

        兩個skill的觸發(fā)條件都是給一個視頻鏈接,我害怕他們會打架,就是出現(xiàn)該觸發(fā)的不觸發(fā),不該觸發(fā)的亂觸發(fā)。

        那就可以使用Skill-creator的評估體系了,讓它來幫你,進行優(yōu)化skill描述。

        它受會先讀取你當前skill的描述,然后告訴你接下來要做四件事:

        

        自動生成兩組查詢,應觸發(fā)的10條和不應觸發(fā)的10條。

        設計得很有意思。

        故意把邊界情況都擺進去,逼模型在模糊地帶做判斷。

        

        然后,直接生成了一個網(wǎng)頁,讓你確認,特別牛逼。

        真的,我用到的時候都驚呆了。

        

        所有查詢排在界面里,每一條右邊有個開關,標著是否應該觸發(fā)。

        你可以逐條看一遍,覺得哪條判斷不對,直接關就行。

        打個比方,第三條這種情況,我不想讓它再觸發(fā)了,我就直接讓它關掉就行。

        

        然后還有不應該觸發(fā)的10條,我看了一遍,沒啥問題。

        

        所有的都確認之后,這時候,你點導出評估集,就完事啦。

        確認完樣本之后,優(yōu)化循環(huán)會在后臺啟動,最多跑5輪迭代。

        每一輪做三件事來幫你進行測試和評估,整個過程大約需要10-20分鐘。

        

        它害會定期匯報進度。

        跑完之后就是你就能看到一個巨型表格。

        

        每一列是一個查詢樣本,每一行是一個迭代版本的描述。

        綠色勾對勾表示觸發(fā)成功,紅色叉×表示沒觸發(fā)。

        

        藍色列是測試集,其余是訓練集。

        

        它把樣本分成60%訓練集和40%測試集,在訓練集上迭代優(yōu)化,最終用測試集上的表現(xiàn)來選,防止過擬合。

        跑完之后,最優(yōu)的描述會自動寫回你的SKILL.md,全程不用你動手。

        Anthropic官方在自己6個文檔類skill上測了一下,5個觸發(fā)率都有提升。

        僅僅就用新版的skill-creator優(yōu)化了一下,真的很牛逼。

        

        通過這一步,能大大提升你的Skills的觸發(fā)準確率。

        但觸發(fā)對了,并不等于OK。

        所以,你的Skill裝上并且能穩(wěn)定觸發(fā)之后,到底在實際任務上表現(xiàn)如何,這個能力,也還要評估一下。

        我就繼續(xù)拿這個剛做好的skill來跑一遍,帶你大家看看整個過程。

        直接對剛剛那個skill進行一下評估。

        

        它會先把你的skill文件完整讀一遍,搞清楚這個skill的核心流程是什么。

        

        然后它會問你:你更想測哪個方面?

        我選了全面評估。

        它根據(jù)skill的功能,自動設計了三類測試場景,同時設計了量化驗收標準。

        

        確認方案之后,它一次性啟動了4個獨立子代理,同時跑。

        

        這次4個并行的Agent來進行測試,就很香了。

        以前其實你也可以做一些簡單的評估,但是,最大的問題,就是會按順序跑,一個跑完再跑下一個。

        但是大家都知道,上下文管理有多重要,前一個任務積累的上下文,會污染后一個的結果。

        你以為是skill的功勞,但,其實完全是對話歷史幫了忙。

        這次的評估,就對味了很多。

        每個代理都在完全干凈的環(huán)境里獨立運行,有自己的token 計數(shù)和時間指標。

        互相之間零交叉。

        結果更快,數(shù)據(jù)更干凈。

        等待的時候,它也順手就把量化評分腳本也準備好了。

        等測試結果回來之后,就直接自動檢查格式是否符合要求,很多小細節(jié)全都在里面。

        

        測試跑完,瀏覽器會里彈出評估查看頁面,有兩個標簽頁。

        輸出標簽頁,可以直接看每個測試用例的輸出。

        下面還有一個反饋框,你可以直接標注哪里不對、哪里需要改進。

        這些反饋會被存起來,下次改進skill的時候直接用。

        

        另一個是基準測試標簽頁,可以看有skill vs 無skill。

        通過量化對比,一目了然。

        

        數(shù)據(jù)這塊,也是極度量化。

        

        有skill的通過率100%,無skill基線9%,差值91.5%。

        費用上,有skill每次大約4000token,無skill1750token,差了2250。

        但這是skill帶來的額外消耗,對比產(chǎn)出的結果,值得。

        但評估的價值遠不止于此。

        Anthropic官方也舉了個例子。

        他們有個PDF skill,之前在處理表格時會出錯。

        Claude需要把文字精確的放在特定坐標上,但因為沒有明確的字段做引導,經(jīng)常放歪。

        這個問題在評估過程中被發(fā)現(xiàn),再進行修復改進定位邏輯后,問題就解決了。

        

        也就是說,找到問題之后不用從頭來過。

        評估結果會存在本地,下次你用skill-creator改進這個skill的時候,它會把上次標注的問題直接帶進去,針對那里改。

        改完再跑一遍評估,看有沒有提升。

        測試、發(fā)現(xiàn)、修、再測,這個循環(huán)是完整的。

        Anthropic把軟件開發(fā)的一些嚴謹做法,比如測試、基準、迭代改進等等,這次引入Skills的創(chuàng)作流程。

        真的,牛逼太多了。

        這絕對對于所有人來說,都是一個史詩級增強。

        你要知道,小龍蝦為什么那么強,能做那么多的事,其實真不是因為他本身有多牛逼,純粹是因為,它身上掛的SKills,太多了,那都是一個一個的技能包。

        可以說,Skills,就是整個Agent未來大繁榮生態(tài)的基石,而我自己,也一直極力的看好和強力推廣各種各樣的Skills。

        所以,我極度建議,大家把Skill-creator更新到最新版,然后把你自己所有的Skills,都進行優(yōu)化和評估一遍。

        當然,你得先分清楚,你寫的Skills是哪種。

        因為本質上,Skills其實分兩種。

        第一種是能力提升型。

        就是教Claude做它本來不擅長的事。

        比如官方的前端設計skill、文檔創(chuàng)建skill,里面寫了大量技巧,是你光靠Prompt根本拿不到的效果。

        我們大多數(shù)人自己搓的skill,基本也都是這類。

        第二種官方叫編碼偏好型。

        就是告訴Claude按你的規(guī)矩來。

        Claude本身每一步都能做,但你的skill把這些步驟按你團隊的流程串起來了。

        比如一個會議紀要整理skill,按你們公司固定的格式,自動把錄音轉成帶行動項的文檔。

        或者一個周報生成skill,從各個平臺里拉數(shù)據(jù),按你要的格式排好。

        你可以把這種,理解成一個Workflow,就是一個工作流。

        對這兩種類型,評估的方向會稍微不太一樣。

        對于能力提升型,測的是模型更新之后這個skill還有沒有存在的必要。

        用A/B測試對比,有skill和沒skill各跑一次。

        結果如果差不多,這個skill就可以退休了。

        

        編碼偏好型測的是另一件事,它有沒有老老實實按你的流程走?

        有沒有漏步驟?有沒有自作主張改了順序?有沒有忘了你特別說過的某個要求?

        所以會稍稍有一些區(qū)別,這個大家在自己評估的時候,可以注意一下。

        回頭想想,以前造完一個skill,其實也就是自我感覺良好。

        但說實話,全是黑盒,根本不知道該怎么評估。

        現(xiàn)在就舒服多了。

        評估跑一遍,數(shù)據(jù)擺出來,好不好用,一眼就見真章。

        所有的Skills,真的都值得重新優(yōu)化和評估一遍。

        Skills生態(tài)。

        感覺又要迎來一波大繁榮了。

        以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

        >/ 作者:卡茲克、可達

        >/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本投降真相被美國藏了76年?原子彈只是幌子,真正讓天皇低頭的竟是這件事

      日本投降真相被美國藏了76年?原子彈只是幌子,真正讓天皇低頭的竟是這件事

      老杉說歷史
      2026-03-14 21:05:14
      金球無水貨!登貝萊歐冠封神,極致表現(xiàn)印證金球獎絕對含金量!

      金球無水貨!登貝萊歐冠封神,極致表現(xiàn)印證金球獎絕對含金量!

      田先生籃球
      2026-04-15 08:53:05
      許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

      許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

      歷史偉人錄
      2026-04-01 17:55:34
      科爾:這是追夢一年中最愛的時刻,為庫里依然站在這里感到開心

      科爾:這是追夢一年中最愛的時刻,為庫里依然站在這里感到開心

      懂球帝
      2026-04-15 11:52:07
      4月15日,開始大赦!

      4月15日,開始大赦!

      以希臘之名
      2026-04-14 16:00:37
      文章上海開陜西面館凌晨仍爆火,網(wǎng)友玩梗周一不見

      文章上海開陜西面館凌晨仍爆火,網(wǎng)友玩梗周一不見

      愛吃冰棍的小痞子
      2026-04-14 23:50:25
      20億大單,必須“先打錢,再發(fā)貨”?比亞迪給印度車企上了一課

      20億大單,必須“先打錢,再發(fā)貨”?比亞迪給印度車企上了一課

      毒sir財經(jīng)
      2026-02-23 17:40:32
      伊朗高層兵馬未動,資金先逃

      伊朗高層兵馬未動,資金先逃

      生命可以承受之輕
      2026-04-13 08:50:39
      訪陸成敗筆?最新民調出爐,鄭麗文支持率倒數(shù),蔣萬安撿大漏?

      訪陸成敗筆?最新民調出爐,鄭麗文支持率倒數(shù),蔣萬安撿大漏?

      哄動一時啊
      2026-04-14 19:54:57
      渣滓洞最“傻”的女烈士:押送路上,為保護戰(zhàn)友她拒絕了生的機會

      渣滓洞最“傻”的女烈士:押送路上,為保護戰(zhàn)友她拒絕了生的機會

      何氽簡史
      2026-04-14 17:01:22
      “孩子太小不會看,隨便投訴,去衛(wèi)健委都行!”醫(yī)生怒懟家屬后,兒科只剩2名醫(yī)生,醫(yī)院無奈停診!

      “孩子太小不會看,隨便投訴,去衛(wèi)健委都行!”醫(yī)生怒懟家屬后,兒科只剩2名醫(yī)生,醫(yī)院無奈停診!

      醫(yī)客
      2026-04-12 12:15:44
      瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

      瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

      錢小刀娛樂
      2026-04-14 10:39:13
      玩偶姐姐真實容貌曝光:擊敗劉玥的,從不止口罩

      玩偶姐姐真實容貌曝光:擊敗劉玥的,從不止口罩

      孤獨的獨角獸影視
      2026-04-15 09:50:03
      同仁醫(yī)院最新研究:睡覺開小夜燈,孩子近視風險高2.4倍

      同仁醫(yī)院最新研究:睡覺開小夜燈,孩子近視風險高2.4倍

      人民日報健康客戶端
      2026-04-13 10:48:20
      27歲演員周墨患腦梗死!185公分體重曾達60斤,疑與熬夜勞累有關

      27歲演員周墨患腦梗死!185公分體重曾達60斤,疑與熬夜勞累有關

      裕豐娛間說
      2026-04-14 11:05:13
      太諷刺!落選國家隊,被WNBA球隊搶著要,球迷:宮魯鳴,為何不容她

      太諷刺!落選國家隊,被WNBA球隊搶著要,球迷:宮魯鳴,為何不容她

      劉哥談體育
      2026-04-14 19:53:25
      “你真美,是不是嫌我老?”:手機被沒收后,女子用手表錄16分鐘

      “你真美,是不是嫌我老?”:手機被沒收后,女子用手表錄16分鐘

      江山揮筆
      2026-04-14 10:48:18
      《瘋狂動物城2》付費僅限48小時內觀看,視頻平臺回應

      《瘋狂動物城2》付費僅限48小時內觀看,視頻平臺回應

      大象新聞
      2026-04-14 07:09:05
      美國不敢跟中國動手?英國學者一語道破:中國不止核武器1個底牌

      美國不敢跟中國動手?英國學者一語道破:中國不止核武器1個底牌

      通文知史
      2026-04-14 10:55:06
      奧沙利文盛贊亨德利是斯諾克歷史最佳,卻被當面反駁“你說錯了”

      奧沙利文盛贊亨德利是斯諾克歷史最佳,卻被當面反駁“你說錯了”

      海闊山遙YAO
      2026-04-15 10:26:42
      2026-04-15 12:11:00
      數(shù)字生命卡茲克 incentive-icons
      數(shù)字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      500文章數(shù) 620關注度
      往期回顧 全部

      科技要聞

      手機無死角上網(wǎng)?亞馬遜砸百億硬剛馬斯克

      頭條要聞

      媒體:蘇林剛到北京就乘坐高鐵 不難看出是為了什么

      頭條要聞

      媒體:蘇林剛到北京就乘坐高鐵 不難看出是為了什么

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊道歉”

      娛樂要聞

      曾志偉辦73歲生日派對,逾百藝人到場

      財經(jīng)要聞

      特朗普稱美國對伊朗的戰(zhàn)爭已經(jīng)結束

      汽車要聞

      海豹08內飾首秀 大滿配“海王”旗艦

      態(tài)度原創(chuàng)

      健康
      游戲
      教育
      親子
      時尚

      干細胞抗衰4大誤區(qū),90%的人都中招

      《Replaced》多平臺發(fā)售 2.5D賽博朋克動作冒險

      教育要聞

      剛剛,山東又有2市確認中小學春秋假時間

      親子要聞

      你為何記不起嬰兒期時光?

      壞事做盡的瘋女人,集體翻紅了

      無障礙瀏覽 進入關懷版