Why A.I. Didn’t Transform Our Lives in 2025
今年本應是自主智能體接管日常任務的一年。但是科技行業承諾過多,實際交付卻令人失望。
作者:卡爾·紐波特(Cal Newport)
2025年12月27日
![]()
插圖:Shira Inbar
一年前,OpenAI首席執行官薩姆·阿爾特曼(Sam Altman)曾做出一個大膽預測:“我們相信,在2025年,我們可能會看到首批人工智能智能體‘加入勞動力隊伍’,并實質性地改變企業的產出。”幾周后,該公司首席產品官凱文·韋爾(Kevin Weil)在1月達沃斯世界經濟論壇上表示:“我認為2025年將是ChatGPT從一個超級聰明的東西……轉變為能在現實世界中為你做事的一年。”他舉例說,人工智能可以填寫在線表格、預訂餐廳等,并隨后承諾:“我們肯定能做到這一點,毫無疑問。”
這絕非小題大做。聊天機器人能直接回應基于文本的指令——比如回答問題或草擬一封電子郵件。但理論上,智能體(agent)能夠獨立在數字世界中導航,完成需要多個步驟并調用其他軟件(如網頁瀏覽器)的任務。以預訂酒店為例:你需要決定入住日期、根據個人偏好篩選選項、閱讀評論、在多個網站間比價和比較設施。智能體理論上可以自動化所有這些活動。這項技術的影響將是巨大的:聊天機器人對人類員工而言只是便利工具;而真正高效的人工智能智能體則可能完全取代這些員工。Salesforce首席執行官馬克·貝尼奧夫(Marc Benioff)聲稱其公司一半的工作已由人工智能完成,并預測智能體將引發一場價值數萬億美元的“數字勞動力革命”。
2025年之所以被稱作“人工智能智能體之年”,部分原因在于到2024年底,這類工具在計算機編程方面已展現出不容置疑的熟練度。今年5月,OpenAI展示了一段Codex智能體的演示視頻:用戶要求該工具修改他的個人網站。“在‘投資/工具’旁邊再加一個叫‘我喜歡的食物’的標簽頁。在文檔里寫上——塔可餅。”用戶寫道。聊天機器人迅速執行了一系列相互關聯的操作:它先查看網站目錄中的文件,檢查一個有希望的文件內容,然后使用搜索命令找到插入新代碼行的正確位置。在理解網站結構后,它成功添加了一個展示塔可餅的新頁面。作為一名計算機科學家,我不得不承認,Codex處理任務的方式與我本人幾乎一致。硅谷因此堅信,其他復雜任務也將很快被攻克。
然而,隨著2025年接近尾聲,通用型人工智能智能體的時代卻并未到來。今年秋天,OpenAI聯合創始人安德烈·卡帕西(Andrej Karpathy)——他已離開公司并啟動了一個人工智能教育項目——形容智能體“認知能力不足”,并直言:“就是行不通。”長期批評科技行業炒作的加里·馬庫斯(Gary Marcus)最近也在他的Substack上寫道:“到目前為止,人工智能智能體基本上是個啞炮。”這種預測與現實之間的落差至關重要。流暢的聊天機器人和逼真的視頻生成器固然令人印象深刻,但它們本身無法帶來一個機器接管我們大量日常活動的世界。如果主要人工智能公司無法交付真正廣泛可用的智能體,那么它們關于人工智能驅動未來的承諾也可能落空。
“人工智能智能體”一詞讓人聯想到《黑客帝國》或《碟中諜:最終清算》中那種超強的新技術。但實際上,智能體并非某種定制化的數字大腦,而是由與聊天機器人相同的大型語言模型(LLM)驅動。當你要求智能體完成一項任務時,一個控制程序(即協調智能體行為的普通應用程序)會將你的請求轉化為對LLM的提示:“我想完成這件事,這是可用的工具,我第一步該做什么?”控制程序隨后嘗試LLM建議的操作,向它反饋結果,并繼續問:“接下來該做什么?”這個循環一直持續,直到LLM認為任務已完成。
事實證明,這種架構在自動化軟件開發方面表現優異。創建或修改計算機程序所需的大多數操作,都可以通過在基于文本的終端中輸入有限的一組命令來實現。這些命令指示計算機瀏覽文件系統、在源文件中添加或更新文本,必要時還將人類可讀的代碼編譯為機器可讀的二進制代碼。這對大型語言模型來說是理想環境。“終端界面是基于文本的,而這正是語言模型擅長的領域,”Terminal-Bench(一種用于評估編程智能體的流行工具)的聯合開發者亞歷克斯·肖(Alex Shaw)告訴我。
然而,像阿爾特曼所設想的那種更通用的助手,則要求智能體走出終端的舒適區。由于大多數人通過點擊鼠標完成電腦任務,一個能“加入勞動力隊伍”的人工智能很可能需要學會使用鼠標——這出人意料地困難。《紐約時報》最近報道,一批新創公司正在構建“影子網站”——復制聯合航空、Gmail等熱門網頁的副本,供人工智能分析人類如何使用光標。今年7月,OpenAI發布了ChatGPT Agent,這是一個早期版本的、能使用網頁瀏覽器完成任務的機器人,但一篇評測指出,“即便是點擊、選擇元素和搜索等簡單操作,智能體也可能耗費數秒甚至數分鐘。”有一次,該工具在房地產網站的下拉菜單中選擇價格時,竟卡了將近15分鐘。
提升智能體能力還有另一種路徑:讓現有工具更容易被人工智能掌握。一個開源項目正致力于開發所謂的“模型上下文協議”(Model Context Protocol),這是一種標準化接口,允許智能體通過基于文本的請求訪問軟件。另一個是谷歌今年春天推出的Agent2Agent協議,它設想一個智能體之間可以直接交互的世界。例如,我的個人人工智能無需親自操作酒店預訂網站,只需向一個由酒店公司專門訓練的專用人工智能發出請求,由后者代為操作即可。當然,要圍繞機器人重新構建整個互聯網基礎設施仍需時間。(多年來,開發者一直在努力阻止機器人干擾網站。)即便技術人員能完成這項工程,或成功掌握鼠標操作,他們仍將面臨另一項挑戰:支撐智能體決策的大型語言模型本身的缺陷。
在宣布ChatGPT Agent上線的視頻中,阿爾特曼與OpenAI工程師團隊展示了多項功能。其中一段演示生成了一張地圖,據稱顯示了遍訪北美全部30座美國職業棒球大聯盟球場的行程。奇怪的是,地圖上竟包含墨西哥灣中部的一個停靠點。有人或許會把這種錯誤當作偶然,但在硅谷批評者馬庫斯看來,這類失誤揭示了一個更根本的問題。他告訴我,大型語言模型缺乏對“現實世界運行機制”的足夠理解,難以可靠地處理開放式任務。即使在規劃旅行這樣看似簡單的場景中,“你仍然需要對時間和地點進行推理”——而這些基本的人類能力恰恰是語言模型所欠缺的。“他們是在笨拙的工具之上又堆砌了更多笨拙的工具,”他說。
其他評論人士則警告,智能體會放大錯誤。聊天機器人用戶很快就會發現,大型語言模型有“胡編亂造”的傾向;一項廣受引用的基準測試顯示,OpenAI最新模型GPT-5的不同版本幻覺率約為10%。對于執行多步驟任務的智能體而言,這種偶發性失誤可能是災難性的:只要一步出錯,整個任務就可能徹底偏離軌道。“別對人工智能智能體太興奮,”《商業內幕》今年春天的一篇頭條警告道,“它們會犯很多錯誤。”
為了更清楚地理解大型語言模型的大腦如何出錯,我請ChatGPT模擬一個酒店預訂智能體的行動方案。它列出了18個步驟和子步驟:選擇預訂網站、對搜索結果應用篩選條件、輸入信用卡信息、向我發送預訂摘要等等。我對模型分解任務的細致程度印象深刻。(若不一一列出,人們很容易低估完成如此常見任務所需的小動作數量。)但我也能看出,這個假想的智能體可能在哪些環節脫軌。
例如,子步驟4.4要求智能體使用公式對房間進行排序:α×(位置得分)+β×(評分得分)-γ×(價格懲罰)+δ×(忠誠度獎勵)。這種做法方向正確,但模型對細節的描述令人擔憂地模糊:它如何計算這些懲罰值和獎勵值?又如何選擇希臘字母代表的權重來平衡各項因素?人類通常會通過試錯和常識手動調整這些細節,但誰也不知道大型語言模型獨自會怎么做。而微小的錯誤也會產生重大影響:如果過度強調價格,你可能會被安排到城里最破舊的酒店之一。
幾周前,阿爾特曼在一份內部備忘錄中宣布,人工智能智能體的開發是OpenAI將弱化推進的項目之一,因為公司希望集中精力改進其核心聊天機器人產品。就在去年此時,阿爾特曼等領導者還在渲染我們已沖過技術懸崖,正混亂地墜入一個自動化的勞動力未來。如今看來,這種亢奮顯得過于草率。最近,為了調整自己對人工智能的預期,我一直在回想今年10月卡帕西接受播客主持人德瓦克什·帕特爾(Dwarkesh Patel)采訪時的一番話。帕特爾問他,為何“智能體之年”未能成真。卡帕西回答:“我覺得這個行業存在一些過度預測。在我看來,這更準確地說應該是‘智能體的十年’。” ?
作者:卡爾·紐波特是《紐約客》的特約撰稿人,也是喬治城大學的計算機科學教授。
說明:本號刊發來自各方的文章,是為了獲得更全面的信息,不代表本號支持文章中的觀點。由于微信公眾號每天只能推送一次,本站目前在騰訊新聞發布最新的文章,每天24小時不間斷更新,請在騰訊新聞中搜索“邸鈔”,或在瀏覽器中點擊:
https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.