網易首頁 > 網易號 > 正文申請入駐

《紐約客》丨為什么人工智能在2025年并未改變我們的生活

2025-12-29 11:27:39　來源: 邸報

上海舉報

分享至

Why A.I. Didn’t Transform Our Lives in 2025

今年本應是自主智能體接管日常任務的一年。但是科技行業承諾過多，實際交付卻令人失望。

作者：卡爾·紐波特（Cal Newport）

2025年12月27日

插圖：Shira Inbar

一年前，OpenAI首席執行官薩姆·阿爾特曼（Sam Altman）曾做出一個大膽預測：“我們相信，在2025年，我們可能會看到首批人工智能智能體‘加入勞動力隊伍’，并實質性地改變企業的產出。”幾周后，該公司首席產品官凱文·韋爾（Kevin Weil）在1月達沃斯世界經濟論壇上表示：“我認為2025年將是ChatGPT從一個超級聰明的東西……轉變為能在現實世界中為你做事的一年。”他舉例說，人工智能可以填寫在線表格、預訂餐廳等，并隨后承諾：“我們肯定能做到這一點，毫無疑問。”

這絕非小題大做。聊天機器人能直接回應基于文本的指令——比如回答問題或草擬一封電子郵件。但理論上，智能體（agent）能夠獨立在數字世界中導航，完成需要多個步驟并調用其他軟件（如網頁瀏覽器）的任務。以預訂酒店為例：你需要決定入住日期、根據個人偏好篩選選項、閱讀評論、在多個網站間比價和比較設施。智能體理論上可以自動化所有這些活動。這項技術的影響將是巨大的：聊天機器人對人類員工而言只是便利工具；而真正高效的人工智能智能體則可能完全取代這些員工。Salesforce首席執行官馬克·貝尼奧夫（Marc Benioff）聲稱其公司一半的工作已由人工智能完成，并預測智能體將引發一場價值數萬億美元的“數字勞動力革命”。

2025年之所以被稱作“人工智能智能體之年”，部分原因在于到2024年底，這類工具在計算機編程方面已展現出不容置疑的熟練度。今年5月，OpenAI展示了一段Codex智能體的演示視頻：用戶要求該工具修改他的個人網站。“在‘投資/工具’旁邊再加一個叫‘我喜歡的食物’的標簽頁。在文檔里寫上——塔可餅。”用戶寫道。聊天機器人迅速執行了一系列相互關聯的操作：它先查看網站目錄中的文件，檢查一個有希望的文件內容，然后使用搜索命令找到插入新代碼行的正確位置。在理解網站結構后，它成功添加了一個展示塔可餅的新頁面。作為一名計算機科學家，我不得不承認，Codex處理任務的方式與我本人幾乎一致。硅谷因此堅信，其他復雜任務也將很快被攻克。

然而，隨著2025年接近尾聲，通用型人工智能智能體的時代卻并未到來。今年秋天，OpenAI聯合創始人安德烈·卡帕西（Andrej Karpathy）——他已離開公司并啟動了一個人工智能教育項目——形容智能體“認知能力不足”，并直言：“就是行不通。”長期批評科技行業炒作的加里·馬庫斯（Gary Marcus）最近也在他的Substack上寫道：“到目前為止，人工智能智能體基本上是個啞炮。”這種預測與現實之間的落差至關重要。流暢的聊天機器人和逼真的視頻生成器固然令人印象深刻，但它們本身無法帶來一個機器接管我們大量日常活動的世界。如果主要人工智能公司無法交付真正廣泛可用的智能體，那么它們關于人工智能驅動未來的承諾也可能落空。

“人工智能智能體”一詞讓人聯想到《黑客帝國》或《碟中諜：最終清算》中那種超強的新技術。但實際上，智能體并非某種定制化的數字大腦，而是由與聊天機器人相同的大型語言模型（LLM）驅動。當你要求智能體完成一項任務時，一個控制程序（即協調智能體行為的普通應用程序）會將你的請求轉化為對LLM的提示：“我想完成這件事，這是可用的工具，我第一步該做什么？”控制程序隨后嘗試LLM建議的操作，向它反饋結果，并繼續問：“接下來該做什么？”這個循環一直持續，直到LLM認為任務已完成。

事實證明，這種架構在自動化軟件開發方面表現優異。創建或修改計算機程序所需的大多數操作，都可以通過在基于文本的終端中輸入有限的一組命令來實現。這些命令指示計算機瀏覽文件系統、在源文件中添加或更新文本，必要時還將人類可讀的代碼編譯為機器可讀的二進制代碼。這對大型語言模型來說是理想環境。“終端界面是基于文本的，而這正是語言模型擅長的領域，”Terminal-Bench（一種用于評估編程智能體的流行工具）的聯合開發者亞歷克斯·肖（Alex Shaw）告訴我。

然而，像阿爾特曼所設想的那種更通用的助手，則要求智能體走出終端的舒適區。由于大多數人通過點擊鼠標完成電腦任務，一個能“加入勞動力隊伍”的人工智能很可能需要學會使用鼠標——這出人意料地困難。《紐約時報》最近報道，一批新創公司正在構建“影子網站”——復制聯合航空、Gmail等熱門網頁的副本，供人工智能分析人類如何使用光標。今年7月，OpenAI發布了ChatGPT Agent，這是一個早期版本的、能使用網頁瀏覽器完成任務的機器人，但一篇評測指出，“即便是點擊、選擇元素和搜索等簡單操作，智能體也可能耗費數秒甚至數分鐘。”有一次，該工具在房地產網站的下拉菜單中選擇價格時，竟卡了將近15分鐘。

提升智能體能力還有另一種路徑：讓現有工具更容易被人工智能掌握。一個開源項目正致力于開發所謂的“模型上下文協議”（Model Context Protocol），這是一種標準化接口，允許智能體通過基于文本的請求訪問軟件。另一個是谷歌今年春天推出的Agent2Agent協議，它設想一個智能體之間可以直接交互的世界。例如，我的個人人工智能無需親自操作酒店預訂網站，只需向一個由酒店公司專門訓練的專用人工智能發出請求，由后者代為操作即可。當然，要圍繞機器人重新構建整個互聯網基礎設施仍需時間。（多年來，開發者一直在努力阻止機器人干擾網站。）即便技術人員能完成這項工程，或成功掌握鼠標操作，他們仍將面臨另一項挑戰：支撐智能體決策的大型語言模型本身的缺陷。

在宣布ChatGPT Agent上線的視頻中，阿爾特曼與OpenAI工程師團隊展示了多項功能。其中一段演示生成了一張地圖，據稱顯示了遍訪北美全部30座美國職業棒球大聯盟球場的行程。奇怪的是，地圖上竟包含墨西哥灣中部的一個停靠點。有人或許會把這種錯誤當作偶然，但在硅谷批評者馬庫斯看來，這類失誤揭示了一個更根本的問題。他告訴我，大型語言模型缺乏對“現實世界運行機制”的足夠理解，難以可靠地處理開放式任務。即使在規劃旅行這樣看似簡單的場景中，“你仍然需要對時間和地點進行推理”——而這些基本的人類能力恰恰是語言模型所欠缺的。“他們是在笨拙的工具之上又堆砌了更多笨拙的工具，”他說。

其他評論人士則警告，智能體會放大錯誤。聊天機器人用戶很快就會發現，大型語言模型有“胡編亂造”的傾向；一項廣受引用的基準測試顯示，OpenAI最新模型GPT-5的不同版本幻覺率約為10%。對于執行多步驟任務的智能體而言，這種偶發性失誤可能是災難性的：只要一步出錯，整個任務就可能徹底偏離軌道。“別對人工智能智能體太興奮，”《商業內幕》今年春天的一篇頭條警告道，“它們會犯很多錯誤。”

為了更清楚地理解大型語言模型的大腦如何出錯，我請ChatGPT模擬一個酒店預訂智能體的行動方案。它列出了18個步驟和子步驟：選擇預訂網站、對搜索結果應用篩選條件、輸入信用卡信息、向我發送預訂摘要等等。我對模型分解任務的細致程度印象深刻。（若不一一列出，人們很容易低估完成如此常見任務所需的小動作數量。）但我也能看出，這個假想的智能體可能在哪些環節脫軌。

例如，子步驟4.4要求智能體使用公式對房間進行排序：α×（位置得分）＋β×（評分得分）－γ×（價格懲罰）＋δ×（忠誠度獎勵）。這種做法方向正確，但模型對細節的描述令人擔憂地模糊：它如何計算這些懲罰值和獎勵值？又如何選擇希臘字母代表的權重來平衡各項因素？人類通常會通過試錯和常識手動調整這些細節，但誰也不知道大型語言模型獨自會怎么做。而微小的錯誤也會產生重大影響：如果過度強調價格，你可能會被安排到城里最破舊的酒店之一。

幾周前，阿爾特曼在一份內部備忘錄中宣布，人工智能智能體的開發是OpenAI將弱化推進的項目之一，因為公司希望集中精力改進其核心聊天機器人產品。就在去年此時，阿爾特曼等領導者還在渲染我們已沖過技術懸崖，正混亂地墜入一個自動化的勞動力未來。如今看來，這種亢奮顯得過于草率。最近，為了調整自己對人工智能的預期，我一直在回想今年10月卡帕西接受播客主持人德瓦克什·帕特爾（Dwarkesh Patel）采訪時的一番話。帕特爾問他，為何“智能體之年”未能成真。卡帕西回答：“我覺得這個行業存在一些過度預測。在我看來，這更準確地說應該是‘智能體的十年’。” ?

作者：卡爾·紐波特是《紐約客》的特約撰稿人，也是喬治城大學的計算機科學教授。

說明：本號刊發來自各方的文章，是為了獲得更全面的信息，不代表本號支持文章中的觀點。由于微信公眾號每天只能推送一次，本站目前在騰訊新聞發布最新的文章，每天24小時不間斷更新，請在騰訊新聞中搜索“邸鈔”，或在瀏覽器中點擊：

https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.