來源:科技世代千高原
- 2026年2月2日
艾倫·圖靈在20世紀50年代提出的人類水平機器智能的愿景如今已成為現實。保持清醒的頭腦,不受恐懼或炒作的蒙蔽,將有助于我們為接下來的發展做好準備。
經過
艾迪·克明· 米哈伊爾·別爾 金... 大衛·丹克斯
- 1950 年,艾倫·圖靈在一篇題為《計算機器與智能》的論文中提出了他的“模仿游戲”。現在被稱為圖靈測試,它探討了一個看似純粹假設性的問題:機器能否展現出人類思維所特有的那種靈活、通用的認知能力,從而能夠將自己冒充為人類,讓不知情的人類誤以為是人類?
75年后,答案似乎是肯定的。2025年3月,由位于加利福尼亞州舊金山的OpenAI公司開發的大型語言模型(LLM)GPT-4.5在圖靈測試中被人類判斷為人類的準確率高達73%——甚至高于人類的準確率2。此外,讀者甚至更喜歡由LLM生成的文學作品,而不是人類專家撰寫的作品3。
這遠非全部。LLM在國際數學奧林匹克競賽中斬獲金牌,與頂尖數學家合作證明了定理?,提出了經實驗驗證的科學假設?,解答了博士考試中的難題,協助專業程序員編寫代碼,創作詩歌等等——包括與世界各地數億人進行全天候聊天。換句話說,法學碩士們展現出了許多跡象,表明他們具備圖靈所關注的那種廣泛而靈活的認知能力——我們現在稱之為“通用智能”,盡管圖靈本人并沒有使用這個術語。
然而,許多專家對稱當前的人工智能模型展現出通用人工智能(AGI)持保留態度——有些人甚至懷疑它們是否真的能夠達到AGI的水平。2025年3月,位于華盛頓特區的美國人工智能促進協會(AAAI)進行的一項調查發現,76%的頂尖研究人員認為,擴大當前人工智能方法的規模“不太可能”或“極不可能”產生AGI(參見go.nature.com/4smn16b)。
這種脫節現象該如何解釋?我們認為,問題一部分在于概念層面,因為通用人工智能(AGI)的定義含糊不清且前后矛盾;一部分在于情感層面,因為AGI引發了人們對社會動蕩和顛覆的恐懼;還有一部分在于實際層面,因為這個術語與商業利益糾纏不清,可能會扭曲評估。正因為AGI在公共話語中占據主導地位,我們才更應該以一種更為客觀的視角來探討這個概念:將其視為一個關于智能的問題,而不是對社會動蕩的迫切擔憂,或是對商業合同中一個永遠無法完成的里程碑的擔憂。
在撰寫這篇評論時,我們從哲學、機器學習、語言學和認知科學等不同角度探討了這個問題,并在廣泛討論后達成共識。接下來,我們將闡述我們為何認為,一旦澄清某些混淆之處,力求進行公平的比較并避免以人類為中心的偏見,結論便顯而易見:按照合理的標準(包括圖靈的標準),我們已經擁有了普遍智能的人工智能系統。長期以來,創造通用人工智能(AGI)的難題已經得到解決。認識到這一點至關重要——對于政策制定、風險評估以及理解心智的本質乃至世界本身都意義重大。
何謂人類水平的AI
我們假設(正如我們認為圖靈會做的那樣),人類擁有通用智能。有些人認為通用智能根本不存在,即使在人類身上也是如此。盡管這種觀點自洽且在哲學上很有趣,但我們在此暫且擱置它,因為它與大多數人工智能討論脫節太深。但是,既然我們已經做出了這個假設,我們應該如何定義通用智能呢?
關于通用智能的一個常見非正式定義,也是我們討論的出發點,是:一個系統能夠完成幾乎所有人類能夠完成的認知任務 6,7 。哪些任務應該列入這個清單引發了諸多爭論,但“人類”一詞也隱藏著一個關鍵的歧義。它指的是每項任務的頂尖人類專家嗎?如果是這樣,那么沒有人符合條件——瑪麗·居里獲得了諾貝爾化學獎和物理學獎,但她并非數論專家。它指的是一個在各個領域都具備全面能力的綜合型人類嗎?這似乎也是一個很高的標準——阿爾伯特·愛因斯坦徹底改變了物理學,但他不會說普通話。
如果一個定義將幾乎所有人類都排除在外,那么它就不是對通用智能的定義;它關注的是其他東西,或許是理想的專業技能或集體智慧。相反,通用智能指的是認知能力的廣度和深度,而“廣度”則以典型案例為依據。廣度指的是跨多個領域的能力——數學、語言、科學、實踐推理、創造性任務——這與“狹義”智能(例如計算器或國際象棋程序)截然不同。深度指的是在這些領域內的卓越表現,而不僅僅是淺嘗輒止。
人類的通用智能存在程度和差異。兒童、普通成年人以及像愛因斯坦這樣公認的天才,都擁有不同水平和類型的通用智能。每個人在不同的領域各有所長或有所不足。同樣的靈活性也應適用于人工智能系統:我們應該探究它們是否具備與人類通用智能水平相當的核心認知能力。
我們并非試圖給出定義,而是借鑒真實和假設的普遍智能案例——從愛因斯坦到外星人再到先知——來勾勒出這一概念的輪廓,并對其進行更系統的完善。我們的結論是:只要個體人類擁有普遍智能,那么當前的法學碩士也擁有普遍智能。
通用智能不是什么
我們可以先找出四個并非通用智能所必需具備的特征。
完美。我們不會期望物理學家達到愛因斯坦的洞見,也不會期望生物學家復制達爾文的突破性發現。即使在專業領域內,也很少有人能做到完美無缺。人類的通用智能并不需要完美;通用人工智能(AGI)也不應該如此。
普遍性。沒有哪個人類個體能夠完成所有認知任務,其他物種也擁有超越我們自身的能力:章魚可以獨立控制其八條觸手;許多昆蟲能夠感知人類無法看到的電磁波譜。通用智能并不要求普遍掌握這些技能;通用人工智能(AGI)也不需要面面俱到。
人類相似性。智能是一種功能屬性,可以在不同的載體上實現——圖靈在1950年就提出了這一點,他當時將人類生物學排除在外1。展現通用智能的系統無需復制人類的認知結構或理解人類的文化參照。我們不會要求智能外星人做到這些;這同樣適用于機器。
超級智能。這個詞通常用來指在幾乎所有領域都遠遠超越人類認知能力的系統。超級智能和通用人工智能(AGI)經常被混淆,尤其是在商業領域,“超級智能”往往意味著經濟動蕩。沒有任何人類能夠達到這個標準;因此,這也不應該成為通用人工智能的必要條件。
一系列證據
那么,什么是通用智能?目前并沒有一個明確的“界限”來檢驗它是否存在——任何精確的閾值都必然是人為設定的。這或許會讓那些想要精確標準的人感到沮喪,但這種模糊性恰恰是它的特點,而非缺陷。“生命”和“健康”之類的概念難以被清晰定義,卻依然有用;我們無需精確的界限就能識別出典型案例。人類就是通用智能的典型例子;而袖珍計算器盡管擁有超人的計算能力,卻不具備通用智能。
當我們評估他人的總體智力或能力時,我們不會試圖窺探他們的內心來驗證理解能力——我們是通過他們的行為、對話和解決問題的能力來推斷的。沒有任何一項測試是絕對權威的,但證據會不斷積累。這同樣適用于人工智能系統。
正如我們通過逐步提高難度的測試(從基本讀寫能力到博士學位考試)來評估人類的一般智力一樣,我們可以考慮一系列難度越來越高的證據,這些證據可以讓我們越來越有信心相信通用人工智能(AGI)的存在。
圖靈測試水平。其衡量標準相當于基礎學校教育:通過標準學校考試、進行基本的對話以及進行簡單的推理。十年前,達到這些標準或許會被廣泛接受,作為通用人工智能(AGI)存在的足夠有力證據。
![]()
目前的人工智能比科幻小說中的超級計算機HAL 9000功能更強大。圖片來源:Hethers/Shutterstock
專家級。在這個級別,要求更高:在國際競賽中獲得金牌,解決跨多個領域的博士考試題,編寫和調試復雜的代碼,精通數十種編程語言,能夠提供有用的前沿研究協助,以及勝任各種創造性和實踐性問題解決能力,從論文寫作到旅行規劃,無所不能。這些成就遠超科幻作品中對通用人工智能(AGI)的諸多描述。斯坦利·庫布里克導演1968年的電影《2001太空漫游》中出現的智能超級計算機HAL 9000,其能力廣度甚至不及現在的法學碩士(LLM)。而現在的法學碩士甚至超越了我們對人類的要求:我們僅憑遠不如HAL 9000的證據就認定某些人擁有通用智能。
超人水平。革命性的科學發現,以及在多個領域持續超越頂尖人類專家的能力。這樣的證據無疑足以駁斥機器擁有通用智能的合理質疑——但這并非通用智能存在的必要證據,因為人類本身并不具備這種能力。
圖靈的愿景得以實現
目前的LLM已經涵蓋了前兩個層次。隨著LLM處理越來越復雜的問題,對其能力的其他解釋——例如,它們是巨大的“查找表” 8,只能檢索預先計算好的答案,或是“隨機鸚鵡” 9,只能復述淺層的規律而無法理解意義或結構——正變得越來越不被證實。
然而,這類論斷往往只是換湯不換藥,不斷重復出現。那些在每次取得新成就前就退縮,總是預測在當前成就之后必將失敗的假設,并非令人信服的科學理論,而是一種教條式的、永無止境的懷疑主義。
我們認為目前的證據已經很明確。通過推斷最佳解釋——也就是我們用來推斷人類是否具備通用智能的推理方式——我們觀察到了高度發達的通用人工智能(AGI)。圖靈設想的那種機器已經出現。類似的論點在2010年之前就有人提出過(另見go.nature.com/49p6voq),并引發了爭議和反對。我們的論點得益于技術的顯著進步和更多的時間。到2026年初,通用人工智能(AGI)的論證將更加清晰明確。
我們現在探討十個針對現有低級智能體展現一般智能這一觀點的常見反對意見。其中一些反對意見與圖靈本人在1950年考慮過的反對意見不謀而合。我們認為,每一種反對意見要么將一般智能與智能的非本質方面混為一談,要么采用了人類個體無法達到的標準。
它們只不過是鸚鵡罷了。隨機鸚鵡論認為,邏輯學習模型(LLM)僅僅是對訓練數據進行插值。它們只能重新組合遇到過的模式,因此在真正的新問題上,或者說“分布外泛化”方面,必然會失敗。這與“洛夫萊斯夫人的反對意見”遙相呼應,后者源于艾達·洛夫萊斯1843年的言論,并由圖靈表述為機器“永遠無法做出任何真正新穎的事情” 1。早期的邏輯學習模型在需要超越訓練數據表面模式進行推理和泛化的問題上確實犯過錯誤。但目前的邏輯學習模型能夠解決新的、未發表的數學問題,對科學數據進行近乎最優的上下文統計推斷11 ,并展現出跨領域遷移能力,即在代碼領域進行的訓練能夠提升其在非編碼領域的一般推理能力12 。如果批評者要求邏輯學習模型做出像愛因斯坦相對論那樣的革命性發現,那他們就把標準定得太高了,因為即使是人類,也很少有人能做出這樣的發現。此外,也不能保證人類智能本身不是一種精密的隨機鸚鵡。所有智能,無論是人類的還是人工智能的,都必須從相關性數據中提取結構;問題在于這種提取能深入到什么程度。
它們缺乏世界模型。低級邏輯模型(LLM)被認為缺乏對其物理環境的表征,而這些表征對于真正的理解至關重要。但擁有世界模型僅僅意味著能夠預測如果情況不同會發生什么——即回答反事實問題。詢問一個最先進的低級邏輯模型,將玻璃杯或枕頭掉落在瓷磚地板上有什么區別,它就能正確預測前者會破碎,而后者則不會。低級邏輯模型能夠解決數學和物理奧林匹克競賽題,并協助工程設計,這表明它們擁有物理原理的功能模型。按照這些標準,低級邏輯模型已經擁有世界模型。此外,為自動駕駛等特定領域開發的神經網絡已經能夠學習物理場景的預測模型,這些模型支持反事實推理和復雜的物理感知 13 。
![]()
艾倫·圖靈曾提出機器是否能夠思考的問題。圖片來源:Gerard Noonan/Alamy
它們只能理解文字。這種反對意見的核心在于,語言學習模型(LLM)僅基于文本進行訓練,因此其功能必然從根本上局限于文本任務。然而,前沿模型現在已能基于圖像和其他多模態數據進行訓練,這使得這種反對意見在某種程度上已經過時。此外,語言是人類壓縮和捕捉現實知識的最強大工具。語言學習模型可以提取這種壓縮的知識,并將其應用于截然不同的非語言任務:例如,幫助研究人員設計實驗——比如,在生物學和材料科學領域提出下一步的測試方向 4 ——其功能遠不止于語言能力。我們尚未遇到這種反對意見所預測的語言學習模型性能的嚴重局限性。
它們沒有實體。批評者認為,沒有實體,就不可能存在普遍智能。這反映了一種以人類為中心的偏見,這種偏見似乎只針對人工智能。人們會把智能賦予一個通過無線電通訊的無形外星人,或者一個培養在培養皿中的大腦。一個能夠準確回答任何問題,但從不移動或進行任何物理行為的實體,會被視為具有高度智能。物理學家斯蒂芬·霍金幾乎完全通過文字和合成語音與世界互動,但他的身體局限絲毫沒有削弱他的智能。運動能力與普遍智能是可以分離的。
它們缺乏自主性。誠然,當今的邏輯邏輯模型(LLM)不像人類那樣能夠獨立設定目標或主動采取行動。即使是像前沿編碼代理這樣的“自主”人工智能系統,通常也只有在用戶觸發任務時才會行動,即便它們能夠自動設計功能和修復漏洞。但智能并不必然要求自主性。就像德爾斐神諭——一個只有在被詢問時才能給出準確答案的系統——當前的邏輯邏輯模型無需主動設定目標即可被視為智能。人類通常兼具一般智能和自主性,但這并不意味著二者必然相互依存。自主性對于道德責任至關重要,但它并非智能的構成要素。
他們沒有自我意識。批評者認為,通用人工智能(AGI)需要持久的自傳體記憶、穩定的個人身份和持續的自我更新,而目前的記憶模塊(LLM)卻缺乏這些能力。前沿的記憶模塊越來越多地配備長期情境記憶和用戶特定記憶,因此人類與基于記憶模塊的系統在記憶和身份方面的差距正在縮小。雖然這些特征對于人類在社會中運作至關重要,但它們并非通用智能的必要條件。我們不會否認患有嚴重失憶癥的人擁有智能,即使他們幾乎記不起任何個人細節;我們也不會否認患有多重人格障礙的人擁有智能,即使他們的各個人格可能彼此不知情。例如,一個有智慧的失憶癥患者可以利用記錄在外部筆記本中的信息進行有效的推理,即使這些筆記本從未連接過。
他們的學習效率很低。一種常見的反對意見是,兒童只需少量例子就能學習概念,而邏輯學習者(LLM)則需要大量數據:他們的“樣本效率”很低。即便這種說法正確,這種比較也并非簡單直接。它忽略了數十億年的進化“預訓練”,這種訓練在人類開始從經驗中學習之前,就已經構建了豐富的歸納偏見——關于物體、空間和因果關系。更重要的是,學習效率的差異并不一定意味著智力水平的差異。一位用十年時間達到大師水平的國際象棋大師,與一位一年內就達到大師水平的人,棋藝同樣精湛。
他們會產生幻覺。低級智力模型(LLM)有時會自信地將錯誤信息當作真理呈現,這引發了人們對其可靠性的擔憂。幻覺在目前的模型中越來越少見,但這并不能否定人類的一般智力。人類容易產生虛假記憶、認知偏差和感知錯覺,并且常常對此深信不疑。
它們缺乏經濟效益。在某些領域,尤其是在工業界,通用人工智能(AGI)的定義已經演變為必須產生實質性經濟回報。但經濟能力是通用智能的應用,而非其存在的必要條件。歷史上有很多才華橫溢卻鮮有經濟回報的人;我們并非因此否定他們的通用智能。
它們的智能是“異類”的。LLM(語言學習機器)有時會在對我們來說微不足道的任務上失敗(例如,統計“strawberry”(草莓)一詞中字母“r”的出現次數),卻能在人類認為困難的任務上表現出色——從博士級別的科學問題到對海量科學文獻進行快速綜合分析。但我們并非認為LLM擁有人類智能,而是認為它們實現了某種形式的通用智能。此外,前沿LLM越來越多地編寫代碼并使用工具來彌補自身的弱點,正如人類利用技術(從袖珍計算器到智能手機)來增強自身能力一樣。由此產生的優勢和劣勢構成了一種相當異類的智能形式,但這正是我們應該拓展通用智能概念的原因,而不是否認這些系統擁有通用智能。
在這些反對意見中,批評者要求具備一些特定特征,而這些特征并非任何可靠的原則所要求的。許多反對意見排除了我們很容易識別出的智能;有些甚至排除了被認為智力超群的人類,或者干脆排除了所有人類。
最后,還有一種不同的反應,與其說是反對意見,不如說是圖靈所說的“鴕鳥心態”:機器思考的后果太過可怕,所以我們只能祈禱它們不會思考。從情感和人性的角度來看,這種想法是可以理解的。但正如圖靈所指出的,這需要的是安慰,而不是反駁——我們可以理解這種擔憂,而無需將其視為論據。
為什么這很重要
將當前的LLM可以視為通用人工智能(AGI),并認為它們實現了圖靈提出的機器智能愿景,這無疑是一記警鐘。這些系統并非遙不可及,它們已經到來。以往用于評估特定工具的框架不足以評估它們的益處和風險。當所涉及的系統不再是特定工具而是通用智能時,共存、責任、義務和治理等問題便呈現出新的維度。
正如我們所見,智能并不一定需要高度自主性——這一發現使關于人工智能系統的法律和道德責任的辯論變得復雜,因為這些辯論通常假定二者密不可分。我們需要更謹慎、更具實證基礎的方法來評估和確定人工智能的責任。此外,傳統的治理方法不太可能適用于通用人工智能(AGI),恰恰是因為其普遍性。技術通常根據其潛在用途進行治理,但AGI幾乎可以應用于任何地方。
另一個關鍵問題涉及人類智能與已創造和未來將要創造的通用智能形式之間的關系。在許多方面,這些系統與人類驚人地相似——它們像我們一樣寫作,像我們一樣說話,也和我們一樣存在一些缺陷。然而,它們仍然是異類,反映出通往通用智能的根本路徑截然不同,不受塑造人類認知(以生存為導向)、體型小、能量稀缺和通信帶寬低等進化壓力的制約。理解這種異類性至關重要。這些系統與我們的有何不同?這些差異是暫時的還是根本性的?
答案或許能揭示通用智能的哪些方面是普遍存在的,哪些方面又是我們生物遺傳的局限性特征。人類歷史上,我們第一次不再孤單地探索通用智能領域。我們或許也能更好地理解其中的風險,因為外星通用智能可能會以出人意料的方式失敗,或者以難以理解或引導的方式取得成功。認清這些系統的本質,將有助于我們今天與它們合作,并為未來做好準備。
僅僅五年前,我們還沒有通用人工智能(AGI);如今,我們擁有了。毫無疑問,更強大的智能形式很快就會出現。這既令人矚目,又令人擔憂。令人矚目之處在于,我們有幸見證了人類歷史上或許最為重大的科學技術革命。令人擔憂之處在于,這一進程的時間跨度遠超歷史任何先例,而且可能還在加速。
1965年,哲學家休伯特·德雷福斯在為蘭德公司評估人工智能進展時,將開發人類水平人工智能的方法比作試圖通過爬樹到達月球(參見go.nature.com/3ywerhj)。幾十年來,這種比喻似乎都很有道理。但隨著證據的不斷積累,我們越來越清楚地認識到,我們誤判了月球的本質和樹木的力量。通用智能確實可以從簡單的學習規則中涌現,這些規則大規模地應用于人類語言中潛在的模式——事實證明,這些模式足夠豐富,足以編碼現實本身的大部分結構。
尼古拉·哥白尼將人類從宇宙中心拉了出來。達爾文將人類從自然界的特權地位中拉了出來。圖靈提出,人類或許并非智能的唯一體現。75年前圖靈設想的機器終于到來,其形態既比任何人想象的都更加陌生,又更加人性化。如同之前的那些革命一樣,這次革命也促使我們重新思考自身的定位——并接受存在著比我們以往所認為的更為豐富的思維類型。我們在世界上的位置,以及我們對思維的理解,都將發生改變。
Nature650
, 36-40 (2026)
doi:https://doi.org/10.1038/d41586-026-00285-6
![]()
![]()
![]()
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.