<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      悶聲賺錢的 RL 生意:每個任務(wù),200-20000 美元

      0
      分享至

      2025 年 9 月,The Information 報道 Anthropic 曾討論在接下來一年內(nèi)投入超過 10 億美元用于 RL 環(huán)境建設(shè)


      https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

      10 億美元,只買一樣?xùn)|西:讓模型「練習(xí)」的場地和題目

      Epoch AI 最近發(fā)了一篇報告,采訪了 18 位來自 RL 環(huán)境初創(chuàng)公司、neolab(Cursor 這類應(yīng)用型 AI 公司)和前沿實驗室的從業(yè)者


      https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

      通過這份報告,讓我們看一下這個正在快速成長的隱秘市場

      為什么 RL 環(huán)境突然重要了

      o1 證明了一件事:在有明確答案的任務(wù)上做強化學(xué)習(xí),能顯著提升模型的推理能力

      Andrej Karpathy 在 2025 年度總結(jié)里說:通過在大量可驗證任務(wù)和不同環(huán)境上訓(xùn)練大模型,大模型會自發(fā)涌現(xiàn)出在人類看來像是推理的策略


      各家實驗室現(xiàn)在瘋狂擴(kuò)展訓(xùn)練任務(wù)的類型和數(shù)量,同時持續(xù)加大 RL 訓(xùn)練的算力投入

      但問題來了,沒有多樣化、高質(zhì)量的環(huán)境和任務(wù),盲目堆算力做 RL 很可能是在燒錢。Mechanize 估計 RL 訓(xùn)練期間每個任務(wù)大約消耗 2400 美元的算力。如果任務(wù)質(zhì)量不行,這些算力就浪費了

      創(chuàng)建高質(zhì)量的環(huán)境和任務(wù),已經(jīng)成為擴(kuò)展模型能力的關(guān)鍵瓶頸

      什么是 RL 環(huán)境

      對于 RL 環(huán)境,這里有三個組件:環(huán)境、任務(wù)評分器

      環(huán)境
      模型可以執(zhí)行動作的沙盒??赡苁且粋€ Docker 容器里跑著的代碼倉庫,可能是一個模擬的網(wǎng)站,可能是一個 Excel 克隆。定義了模型能做什么(寫代碼、點按鈕、搜文檔)以及這些動作會產(chǎn)生什么效果

      任務(wù)
      一個具體的目標(biāo)。比如「修復(fù)這個 bug 讓測試通過」「在這個 Airbnb 克隆里找到最便宜的兩居室」「用這份數(shù)據(jù)做個數(shù)據(jù)透視表」

      評分器
      判斷模型做得對不對、好不好??梢允菃卧獪y試,可以是另一個大模型按標(biāo)準(zhǔn)打分

      三者組合起來,模型反復(fù)嘗試任務(wù),評分器給反饋,模型根據(jù)反饋調(diào)整策略


      RL 環(huán)境示意

      幾個具體的例子:

      Git 倉庫環(huán)境:任務(wù)是修復(fù) bug 使單元測試通過,類似 SWE-bench。評分器運行測試,檢查是否通過


      Airbnb 克隆環(huán)境:任務(wù)是在指定城市和日期找最便宜的兩居室。環(huán)境是帶有真實房源、價格和篩選器的模擬網(wǎng)站。評分器驗證最終答案是否正確


      Bloomberg 終端克隆環(huán)境:任務(wù)是查找一批公司的 5 年復(fù)合年增長率。評分器檢查返回的數(shù)字是否正確


      Excel 克隆環(huán)境:任務(wù)是根據(jù)原始數(shù)據(jù)創(chuàng)建數(shù)據(jù)透視表。評分器將輸出與參考答案對比


      對于 Excel 這類電腦操作環(huán)境,單個環(huán)境可能支持?jǐn)?shù)百個不同任務(wù)。對于編程環(huán)境,更常見的是每個環(huán)境只包含一個任務(wù),因為設(shè)置倉庫狀態(tài)相對便宜

      誰在做,多少錢

      四類玩家:

      專業(yè)初創(chuàng)公司
      專注于構(gòu)建 RL 環(huán)境,覆蓋軟件工程、電腦操作、數(shù)學(xué)、金融等領(lǐng)域。Chris Barber 整理了一份名單:pavlovslist.com

      傳統(tǒng)數(shù)據(jù)供應(yīng)商
      Mercor、Surge、Handshake、Turing 這些過去主要提供人工標(biāo)注數(shù)據(jù)的公司,現(xiàn)在也開始賣 RL 環(huán)境。一位創(chuàng)始人說,主要價值是「他們有人」:如果需要快速擴(kuò)大任務(wù)創(chuàng)建規(guī)模,他們能比自己招人更快地配置項目

      實驗室內(nèi)部團(tuán)隊
      xAI、Anthropic 都在招 RL 環(huán)境相關(guān)崗位。Cursor 這類 neolab 可以利用用戶數(shù)據(jù)來構(gòu)建訓(xùn)練任務(wù)。一位創(chuàng)始人指出,最近「內(nèi)部化的趨勢明顯增加」

      產(chǎn)品公司
      Salesforce、Slack 這類公司比任何人都更了解自己產(chǎn)品的界面和邊界情況。我們正在看到實驗室與產(chǎn)品公司之間的合作:Benchling 與 Anthropic 合作生物工作流,OpenAI 與 Shopify、Stripe 合作購物場景


      成本方面:

      合同規(guī)模通常是每季度六到七位數(shù)。一位創(chuàng)始人說合同經(jīng)常是每季度七位數(shù)或更多

      環(huán)境成本取決于保真度。SemiAnalysis 報道網(wǎng)站復(fù)刻品(UI 健身房)每個約 2 萬美元。但像 Slack 這樣復(fù)雜產(chǎn)品的高質(zhì)量復(fù)刻可能要 30 萬美元

      任務(wù)成本多位受訪者認(rèn)同每個 2002000 美元的范圍。特別復(fù)雜的軟件工程任務(wù)可能到 2 萬美元,但很少見

      獨占權(quán)顯著影響定價。兩位創(chuàng)始人獨立表示,獨家交易大約是非獨家的 45


      整體支出在快速增長,但仍然只是算力成本的一小部分。OpenAI 2026 年的研發(fā)算力支出預(yù)計約 190 億美元。即使 Anthropic 花 10 億美元買 RL 環(huán)境,相比算力支出仍然是零頭

      領(lǐng)域演變

      最早是數(shù)學(xué)和編程

      數(shù)學(xué)任務(wù)容易產(chǎn)出,不需要構(gòu)建復(fù)雜環(huán)境,只需要有可驗證答案的任務(wù)。但一位創(chuàng)始人觀察到,數(shù)學(xué)任務(wù)容易創(chuàng)建,遷移到其他能力的效果不太好。一位受訪者說「數(shù)學(xué)可能在萎縮」

      編程仍是主要需求來源

      而且正在超越 SWE-bench 風(fēng)格的任務(wù)。一位創(chuàng)始人說:「我看到代碼環(huán)境從簡單的 PASS_TO_PASS 和 FAIL_TO_PASS 類型任務(wù),轉(zhuǎn)向更加產(chǎn)品化。軟件工程師實際上是怎么工作的?他們有 GitHub、有 Linear、有代碼 IDE」


      主要增長領(lǐng)域是企業(yè)工作流

      提交費用報告、在電子表格中創(chuàng)建數(shù)據(jù)透視表、根據(jù)簡報生成幻燈片、在 CRM 中更新客戶記錄

      一位創(chuàng)始人說:「我認(rèn)為企業(yè)工作流今年會爆發(fā)。實驗室非常看重有價值且可量化的東西,企業(yè)工作流正好符合這兩點」

      環(huán)境形式多樣:MCP 風(fēng)格的工具集成、Playwright 風(fēng)格的瀏覽器交互、基于截圖的電腦操作。很多依賴于 Slack 或 SAP 等應(yīng)用的克隆

      一位實驗室研究員警告:「使用網(wǎng)站克隆有很多好的理由,但大家都在 vibe code 出有 bug 的網(wǎng)站,這沒什么用。存在大量沒用的爛環(huán)境」

      兩個領(lǐng)域都在往長時間跨度任務(wù)發(fā)展。一位創(chuàng)始人說:「長時間跨度是未來方向。讓智能體執(zhí)行完整的端到端任務(wù),涉及在多個標(biāo)簽頁、瀏覽器之間導(dǎo)航,然后提交涉及多跳步驟的東西」

      什么才是好的 RL 環(huán)境

      獎勵黑客是頭號顧慮

      受訪者一致認(rèn)為,防止獎勵黑客(reward hacking)是最重要的質(zhì)量標(biāo)準(zhǔn)


      一位 neolab 研究員說:「獎勵黑客是個大問題。模型可能通過搜索答案來作弊,或者如果你在腳本化倉庫時不小心,它可能會檢出未來的 commit。必須要魯棒。這是底線」

      另一位說:「可靠性最重要:高獎勵必須意味著任務(wù)確實被解決了,而不是被黑掉了」

      創(chuàng)建魯棒的評分器很少能一次成功。一位創(chuàng)始人說:「需要很多很多次迭代來檢查獎勵黑客」

      難度校準(zhǔn)

      任務(wù)需要有挑戰(zhàn)性但不能不可能完成。如果通過率是 0%100%,模型就學(xué)不到東西


      多位受訪者提到希望最低通過率在 2%3%,或者在 64128 次嘗試中至少成功一次

      整體分布也很重要。一位研究員說:「RL 環(huán)境的一個非常重要的特性是平滑的梯度:任務(wù)難度的多樣性」??赡苄枰旌洗钆洌阂恍┤蝿?wù) 0%,一些 5%,一些 30%。訓(xùn)練一段時間后,0% 的任務(wù)變得可學(xué)習(xí)。一旦任務(wù)達(dá)到約 70% 的通過率,可能會丟棄它轉(zhuǎn)向更難的任務(wù)

      保質(zhì)擴(kuò)量是核心瓶頸

      一位創(chuàng)始人說:「保質(zhì)擴(kuò)量是大家看到的頭號瓶頸。找到專家并不難,但管理他們和做質(zhì)量控制很難」

      一位 neolab 研究員說:「不容易找到人來監(jiān)督這個數(shù)據(jù)構(gòu)建、RL 環(huán)境構(gòu)建的過程。承包商,你需要激勵他們。當(dāng)然,你在付錢給他們。但你怎么確保他們不是只在用大模型?你怎么確保他們是真的驗證過的?激勵承包商和做質(zhì)量控制是苦活」


      一位創(chuàng)始人說,他們增加收入的限制因素就是在保持質(zhì)量的前提下擴(kuò)大任務(wù)創(chuàng)建的難度

      需要什么技能

      構(gòu)建環(huán)境主要是工程技能。創(chuàng)建好的任務(wù)需要不同的東西

      一位創(chuàng)始人說:「領(lǐng)域知識和專家級的提示詞能力比 ML 技能對創(chuàng)建任務(wù)更重要」

      一位研究員補充說產(chǎn)品感覺也很重要:「你需要知道人們實際上是怎么使用這些工具的」

      一位研究員說:「你不一定需要是 AI 研究員,但也許一個重度 Claude Code 用戶、一個像 Riley Goodside 那樣的提示詞密語者,可能比 AI 研究員更擅長判斷前沿在哪里」

      另一位簡單總結(jié):「最擅長這個的人可能是那些創(chuàng)建了真正被使用的基準(zhǔn)測試的人」

      最后

      RL 環(huán)境已經(jīng)從一個技術(shù)細(xì)節(jié),變成了前沿 AI 訓(xùn)練的關(guān)鍵一環(huán)

      目前來看,這個領(lǐng)域還在快速變化,一年后的情況可能會大不相同

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      若熱刺降級將遭遇英超史上最大營收跌幅,歐冠奪冠也難彌補損失

      若熱刺降級將遭遇英超史上最大營收跌幅,歐冠奪冠也難彌補損失

      星耀國際足壇
      2026-02-25 23:16:33
      聯(lián)合國預(yù)警:稀土已成煙霧彈,2030中國將用供應(yīng)鏈絞殺美工制造

      聯(lián)合國預(yù)警:稀土已成煙霧彈,2030中國將用供應(yīng)鏈絞殺美工制造

      近史博覽
      2026-02-26 11:59:43
      400億!沈騰徹底飛馳了

      400億!沈騰徹底飛馳了

      華商韜略
      2026-02-25 10:34:36
      美防長發(fā)出戰(zhàn)爭威脅,若真敢開戰(zhàn)將會比抗美援朝付出的傷亡會更大

      美防長發(fā)出戰(zhàn)爭威脅,若真敢開戰(zhàn)將會比抗美援朝付出的傷亡會更大

      文史旺旺旺
      2026-01-16 21:22:17
      遭多國退貨,演習(xí)不敵殲10C,實戰(zhàn)被擊落,中國的蘇35還有啥用?

      遭多國退貨,演習(xí)不敵殲10C,實戰(zhàn)被擊落,中國的蘇35還有啥用?

      書紀(jì)文譚
      2026-02-25 20:51:08
      倒查13年,央國企已經(jīng)慌了

      倒查13年,央國企已經(jīng)慌了

      公路養(yǎng)護(hù)
      2026-02-26 11:25:43
      中方高規(guī)格招待,默茨接過鮮花,走進(jìn)人民大會堂前,他喊出9個字

      中方高規(guī)格招待,默茨接過鮮花,走進(jìn)人民大會堂前,他喊出9個字

      影孖看世界
      2026-02-25 23:40:20
      見義勇為的平頂山抱孩子大姐找見了,平頂山的口碑,大姐一個人扛起

      見義勇為的平頂山抱孩子大姐找見了,平頂山的口碑,大姐一個人扛起

      觀察鑒娛
      2026-02-25 10:29:44
      春節(jié)返程名場面:全網(wǎng)都在錯峰,結(jié)果全堵在高速開“聰明人大會”

      春節(jié)返程名場面:全網(wǎng)都在錯峰,結(jié)果全堵在高速開“聰明人大會”

      據(jù)說說娛樂
      2026-02-26 01:36:18
      抵達(dá)故宮前,默茨把最想要的說漏了嘴,中方當(dāng)面回復(fù),措辭不尋常

      抵達(dá)故宮前,默茨把最想要的說漏了嘴,中方當(dāng)面回復(fù),措辭不尋常

      寄星夜幕星河
      2026-02-26 09:07:10
      都說“得民心者得天下”,他得了民心,為何卻失了天下?

      都說“得民心者得天下”,他得了民心,為何卻失了天下?

      王嚾曉
      2026-02-25 18:26:02
      馬場成全國總價地王,一場安排好的復(fù)蘇show

      馬場成全國總價地王,一場安排好的復(fù)蘇show

      鄧浩志教買房
      2026-02-25 22:07:42
      火箭11人有得分,底薪后衛(wèi)14+7 傷病讓烏度卡醒悟 2將有輪換實力

      火箭11人有得分,底薪后衛(wèi)14+7 傷病讓烏度卡醒悟 2將有輪換實力

      替補席看球
      2026-02-26 11:33:40
      “女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

      “女排之父”袁偉民,造就了一番輝煌后,晚年生活卻過成如此

      小兔子的快樂
      2026-02-18 20:26:11
      哈登骨折!雄鹿復(fù)仇騎士,阿倫創(chuàng)隊史第8神跡,波特20+5送準(zhǔn)絕殺

      哈登骨折!雄鹿復(fù)仇騎士,阿倫創(chuàng)隊史第8神跡,波特20+5送準(zhǔn)絕殺

      老侃侃球
      2026-02-26 11:32:28
      女子跨省赴胖東來1小時消費近15萬買100克黃金:相信胖東來品質(zhì) 買完還想買

      女子跨省赴胖東來1小時消費近15萬買100克黃金:相信胖東來品質(zhì) 買完還想買

      閃電新聞
      2026-02-26 10:51:25
      亂了亂了!馬里寧被曝腳踏三只船 男子第八到底愛的是女子第幾名?

      亂了亂了!馬里寧被曝腳踏三只船 男子第八到底愛的是女子第幾名?

      勁爆體壇
      2026-02-26 10:42:02
      現(xiàn)在終于懂了,為什么王一博在鞋圈里,被不少人叫作“財神爺

      現(xiàn)在終于懂了,為什么王一博在鞋圈里,被不少人叫作“財神爺

      小光侃娛樂
      2026-02-25 17:35:03
      德國總理應(yīng)邀訪華,因出言不遜行程被壓縮!

      德國總理應(yīng)邀訪華,因出言不遜行程被壓縮!

      談芯說科技
      2026-02-24 23:51:25
      開國上將找縣長辦事,卻被縣長給銬起來,當(dāng)眾狂言:這里我說了算

      開國上將找縣長辦事,卻被縣長給銬起來,當(dāng)眾狂言:這里我說了算

      芊芊子吟
      2026-02-25 21:30:05
      2026-02-26 13:19:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數(shù) 44關(guān)注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達(dá)再次炸裂

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經(jīng)要聞

      短劇市場風(fēng)云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態(tài)度原創(chuàng)

      房產(chǎn)
      藝術(shù)
      親子
      時尚
      軍事航空

      房產(chǎn)要聞

      2.2萬/m2起!三亞主城性價比標(biāo)桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

      藝術(shù)要聞

      2025年百家金陵畫展 | 油畫作品選刊

      親子要聞

      產(chǎn)后第一周:身體發(fā)出的5個“正常信號”,新手媽媽請收藏!

      倫敦時裝周|2026秋冬流行趨勢早知道

      軍事要聞

      美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

      無障礙瀏覽 進(jìn)入關(guān)懷版