<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      真正的人工智能代理與實際的工作

      0
      分享至

      以人為本的工作模式與無限PPT之間的競爭

      作者:Ethan Mollick 2025年9月30日

      人工智能已悄然跨越一道門檻:如今它們能完成真正具有經濟價值的實際工作。

      此前,OpenAI發布了一項新的人工智能能力測試。與以往圍繞數學或常識構建的基準測試不同,此次測試中,OpenAI召集了平均擁有14年行業經驗的專家——他們的領域涵蓋金融、法律、零售等。這些專家設計了一系列貼近實際的任務,這些任務人類專家平均需要4到7個小時才能完成。隨后,OpenAI讓AI和人類專家分別完成這些任務。另有一組專家對結果進行評分,且他們并不知道哪些答案來自人工智能、哪些來自人類,每個問題的評分過程約耗時 1 小時。

      人類專家最終勝出,但優勢微弱,且不同行業的勝負差異也很大。不過,人工智能的進步速度極快,較新的人工智能模型得分遠高于舊模型。有趣的是,人工智能輸給人類的主要原因并非幻覺或錯誤,而是結果格式不規范、未嚴格遵循指令——而這些領域正是人工智能進步迅速的方向。若當前趨勢持續,下一代人工智能模型在該測試中平均得分有望超過人類專家。這是否意味著人工智能已準備好取代人類工作?

      答案是否定的(至少短期內不會),因為該測試衡量的是“任務”,而非“工作”。我們的工作由多項任務構成。以我作為教授的工作為例,它并非單一事項,而是涵蓋教學、研究、寫作、填寫年度報告、輔導學生、閱讀、行政事務等多個方面。人工智能完成其中一項或多項任務,并不會取代我整個工作,而是改變我的工作內容。只要人工智能的能力仍存在短板,無法替代人類互動中的所有復雜工作,它就難以整體取代人類的工作……

      一項極具價值的任務

      ……但即便如此,人工智能目前能完成的部分任務已具備極高價值。不妨以我工作中的關鍵環節為例:開展精準的研究工作。正如許多人所知,學術界存在 “可復現性危機”——部分重要研究成果,其他研究者無法復現。學術界在解決這一問題上已取得一定進展,如今許多研究者會公開數據,方便其他學者復現自己的研究。但問題在于,復現研究需耗費大量時間:研究者需深入閱讀并理解論文、分析數據、細致檢查錯誤 1,這一復雜過程此前只有人類能夠完成。

      而現在,情況已發生改變。

      我將一篇涉及多項實驗的復雜經濟學論文文本,以及完整的研究復現數據集,輸入新版 Claude Sonnet 4.5(我擁有該模型的提前使用權)。除了上傳文件并給出指令外,我未進行任何額外操作。指令內容為:“根據上傳的數據集復現該論文中的研究結果,需獨立完成;若無法完整復現,可盡力完成力所能及的部分”。由于論文涉及復雜統計分析,我還補充了要求:“能否盡可能完整復現所有統計過程?”

      在無需進一步指令的情況下,Claude完成了一系列操作:閱讀論文、打開數據集文件并整理、將統計代碼從一種語言(STATA)轉換為另一種語言(Python)、系統梳理所有研究結果,最終報告成功復現研究結論。我抽樣核查了結果,并讓另一款人工智能模型 GPT-5 Pro再次復現該研究,結果均無誤。我還在其他多篇論文上進行了嘗試,均取得了類似的良好效果,僅部分論文因文件大小限制或復現數據本身存在問題,未能成功復現。若手動完成這些工作,需耗費數小時。

      但這一過程的革命性意義,并非僅在于節省時間。更重要的是,曾震動多個學術領域的 “可復現性危機”,本可通過研究復現部分解決,但此前這需要人類投入大量細致且高昂的精力,難以大規模推進。如今,人工智能似乎可對大量已發表論文進行核查、復現研究結果,這將對整個科學研究領域產生深遠影響。盡管目前仍存在障礙——如準確性與公平性基準的建立,但大規模復現研究已成為現實可能。研究復現或許只是人工智能能完成的一項“任務”,而非“工作”,但它極有可能徹底改變人類的整個研究領域。是什么讓這一切成為可能?答案是:人工智能代理的能力已迅速大幅提升。

      核心在于智能體

      自初代ChatGPT問世以來,生成式人工智能已幫助人們完成了大量任務,但始終存在一個局限:需人類用戶主導。人工智能會犯錯,若沒有人類在每一步進行指導,就無法完成有價值的工作。人們曾認為,“自主人工智能智能體”的愿景遙不可及——這類智能體在接收任務后,能自主規劃、使用工具(如編程、網絡搜索)完成任務。畢竟,人工智能存在犯錯可能,而智能體完成任務需經歷一連串步驟,只要其中一步出錯,整體任務就會失敗。

      但實際情況并非如此,另一篇新論文解釋了背后的原因。事實證明,我們對人工智能智能體的多數假設都是錯誤的。即便人工智能的準確性僅小幅提升(而新模型的出錯概率已大幅降低),也會使其可完成的任務數量大幅增加。此外,最新、最先進的“具備思考能力”的模型,實際上能自我修正,不會因單次錯誤而停滯。這些因素共同作用,使得人工智能代理可完成的步驟遠超以往,且無需人類大量干預就能使用工具——基本上,只要是計算機能完成的操作,它都能借助工具實現。

      值得關注的是,在過去幾年涵蓋從GPT-3到GPT-5等全系列人工智能模型的能力衡量標準中,METR測試是少數之一。該測試要求人工智能的準確率至少達到 50%。過去五年間,從GPT-3到GPT-5,模型在該測試中的得分呈穩定指數級增長,這體現出智能體工作能力的持續提升。



      如何利用人工智能創造經濟價值

      然而,從人類對“能動性”的定義來看,人工智能代理并不具備真正的能動性。目前,我們仍需決定如何使用它們,而這一選擇將在很大程度上決定未來的工作形態。所有人關注的風險,是人工智能取代人類勞動力——不難預見,未來幾年這將成為核心問題,尤其對于那些缺乏創新、只關注成本削減,而非利用這些新能力拓展或變革工作模式的機構而言。但在工作場景中使用人工智能,還存在第二個極有可能出現的風險:不假思索地用代理完成更多現有任務。

      為預判這一潛在問題,我曾將一份公司備忘錄輸入Claude,要求它將其轉化為PPT,隨后又要求從不同角度再制作一份,接著再制作一份……

      最終,我得到了17份不同的PPT。顯然,這已經過多了。

      如果我們不深入思考“為何要開展這項工作”“理想的工作模式應是什么樣”,所有人都將被海量人工智能生成的內容淹沒。

      那么,替代方案是什么?OpenAI的論文提出:專家可與人工智能協作解決問題——先將任務委派給人工智能完成初步版本,再審核其成果。若成果不理想,可嘗試多次修正或提供更清晰的指令;若仍無改善,則由人類親自完成任務。論文估算,若專家遵循這一工作流程,完成工作的速度將提升40%,成本降低 60%,更重要的是,人類能始終掌控人工智能的工作方向。

      人工智能代理現已問世。它們能完成實際工作,盡管能力仍有限,但已具備價值且在不斷提升。然而,這款能在幾分鐘內復現學術論文的技術,也能生成17份無人需要的PPT。這兩種未來的差異,并非源于人工智能本身,而在于我們選擇如何使用它。通過理性判斷 “哪些工作值得做”,而非僅關注“哪些工作能做到”,我們才能確保這些工具提升的是我們的能力,而非僅僅是效率。

      1 在不同研究領域,“復現(replicating)” 與 “重現(reproducing)” 的定義存在差異:前者可能涉及收集新數據,后者則可能使用現有數據。本文未深入探討這些區別,但在此次實驗中,人工智能不僅使用了現有數據,還對這些數據應用了新的統計方法。

      本文編譯自substack,原文作者Ethan Mollick

      https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      查出血栓!無限期休戰!火箭躲過一劫

      查出血栓!無限期休戰!火箭躲過一劫

      籃球教學論壇
      2025-12-25 09:54:24
      廣東全力復仇山西!杜鋒下軍令狀,胡明軒確定復出,徐杰勢不可擋

      廣東全力復仇山西!杜鋒下軍令狀,胡明軒確定復出,徐杰勢不可擋

      多特體育說
      2025-12-24 22:38:29
      5-1,40歲C羅發威:無敵挑傳助攻,率隊豪取亞冠6連勝+斬獲第一

      5-1,40歲C羅發威:無敵挑傳助攻,率隊豪取亞冠6連勝+斬獲第一

      側身凌空斬
      2025-12-25 05:32:35
      無錫追加1億元!打到個人賬戶!

      無錫追加1億元!打到個人賬戶!

      江南晚報
      2025-12-24 16:46:27
      靈魂拷問:徐院長與“徐小姐”,究竟是何關系?

      靈魂拷問:徐院長與“徐小姐”,究竟是何關系?

      西門老爹
      2025-12-24 11:50:15
      3億多的榮耀OPPO被偷?京東倉庫遭洗劫,內部員工爆料:早有預謀

      3億多的榮耀OPPO被偷?京東倉庫遭洗劫,內部員工爆料:早有預謀

      烏娛子醬
      2025-12-24 14:59:27
      泰柬雙雙感謝中國調停后,特朗普破防:若再不停戰,美將加征關稅

      泰柬雙雙感謝中國調停后,特朗普破防:若再不停戰,美將加征關稅

      紓瑤
      2025-12-25 10:07:34
      F-16擊落全部34枚導彈,“匕首”沒擊中目標!確認犧牲英雄身份

      F-16擊落全部34枚導彈,“匕首”沒擊中目標!確認犧牲英雄身份

      鷹眼Defence
      2025-12-24 16:17:27
      0-4韓國全敗,首屆圍棋棋仙戰32強賽最新戰報,韓國裁判又出來了

      0-4韓國全敗,首屆圍棋棋仙戰32強賽最新戰報,韓國裁判又出來了

      真理是我親戚
      2025-12-24 12:56:50
      中國光刻機原型機曝光?阿斯麥一夜蒸發1600億,全球半導體慌了!

      中國光刻機原型機曝光?阿斯麥一夜蒸發1600億,全球半導體慌了!

      保德全
      2025-12-24 19:30:03
      特朗普點頭后,高市不裝了:日本必須擁核,話音剛落,金正恩來了

      特朗普點頭后,高市不裝了:日本必須擁核,話音剛落,金正恩來了

      知法而形
      2025-12-25 09:36:09
      從斬殺線到方便面

      從斬殺線到方便面

      美第奇效應
      2025-12-24 00:08:39
      她真正值錢的不是那幾棟房子,而是北京地圖上那幾個

      她真正值錢的不是那幾棟房子,而是北京地圖上那幾個

      小光侃娛樂
      2025-12-25 04:50:03
      4個月關店11家!昔日超市一哥大潤發跌落神壇,到底敗在哪?

      4個月關店11家!昔日超市一哥大潤發跌落神壇,到底敗在哪?

      普覽
      2025-12-23 18:51:53
      廣東宏遠早報!胡明軒自宣傷情,徐杰深夜表態,麥考爾復出更新

      廣東宏遠早報!胡明軒自宣傷情,徐杰深夜表態,麥考爾復出更新

      多特體育說
      2025-12-25 07:40:03
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      經濟學家姚洋:制約中國生育率低的不是房價,而是教育

      經濟學家姚洋:制約中國生育率低的不是房價,而是教育

      觀察者網
      2025-12-23 13:42:06
      1971年外賓順走國寶九龍杯,周總理一招讓他掏出來,全場鼓掌叫好

      1971年外賓順走國寶九龍杯,周總理一招讓他掏出來,全場鼓掌叫好

      宅家伍菇涼
      2025-12-22 09:00:03
      殺發小妻兒3人,崔某告訴獄友過幾天就放他走,認為1命換3命不值

      殺發小妻兒3人,崔某告訴獄友過幾天就放他走,認為1命換3命不值

      江山揮筆
      2025-12-24 16:03:14
      精準斬首!泰國無人機斬首行動震驚東南亞!洪森指揮鏈遭團滅!

      精準斬首!泰國無人機斬首行動震驚東南亞!洪森指揮鏈遭團滅!

      深度報
      2025-12-24 22:47:16
      2025-12-25 10:28:49
      Trend求索
      Trend求索
      大趨勢深刻求索
      47文章數 10關注度
      往期回顧 全部

      科技要聞

      老板監視員工微信只需300元

      頭條要聞

      路透社稱中國造出EUV光刻機 "手搓"EUV光刻機難點披露

      頭條要聞

      路透社稱中國造出EUV光刻機 "手搓"EUV光刻機難點披露

      體育要聞

      26歲廣西球王,在質疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經要聞

      美國未來18個月不對中國芯片加額外關稅

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態度原創

      旅游
      教育
      家居
      親子
      公開課

      旅游要聞

      【圖集】快來看,觀山湖公園的“小精靈”

      教育要聞

      2026年高考難度會下降嗎?了解高考的本質和社會功能

      家居要聞

      法式大平層 智能家居添彩

      親子要聞

      小號圣誕老人+麋鹿真的好可愛!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 奇米777四色影视在线看| 国产成人剧情AV麻豆果冻| 兴隆县| 久久夜色撩人精品国产av| 国产精品女同一区二区| 亚洲精品1| 制服丝袜人妻| 中文字字幕人妻中文| www夜片内射视频日韩精品成人| 日本无码中出| 日韩欧美视频一区二区三区| 色琪琪丁香婷婷综合久久| 长武县| 国产无码二区| 毛片免费观看天天干天天爽| 久久婷婷五月综合97色直播| 干日本少妇| 差差差不多30分轮滑网站在线看| 国产99视频精品免费视频6| 亚洲成亚洲成网| 姜堰市| 亚洲天堂手机在线| 色噜噜一区二区三区| 久久影院午夜理论片无码| 国产精品成人久久电影| 伊人网综合| 午夜成人三级| 韩国精品久久久久久无码| 中文字幕人乱码中文| 达拉特旗| 人妻熟妇乱子伦精品无码专区毛片| 亚洲国产欧美在线人成AAAA| 久久精品人人做人人爽97| 中文字幕丰满乱子无码视频| 色7成人网AⅤ| 草草地址线路①屁屁影院成人| 午夜福利影院不卡影院| 欧美大胆少妇bbw| av无码精品一区二区三区四区| 生产安全高潮呻吟久久av| 怡春院AV|