網易首頁 > 網易號 > 正文申請入駐

OECD報告：AI能力達到什么水平了？

2025-06-10 20:38:40　來源: 國際與比較教育研究所

北京舉報

分享至

2025年6月3日，經濟合作與發展組織發布《OECD人工智能能力介紹》報告，介紹了OECD的“AI能力指標”測試版。這些指標旨在評估和比較AI相對于人類能力的發展情況，由50多位專家歷時5年合作開發，涵蓋了從語言到操作等九種人類能力。現就該報告主要內容總結如下。

1.目前AI能力已達到什么水平？

該報告提出了9項AI能力評估指標，每個指標分1-5級別，1級最低，5級最高，后者意味著可以達到人類水平，目前AI在各指標方面的能力具體如下表：

指標

級別

能力描述

語言

此級別的AI系統能夠利用多語料庫知識可靠地理解和生成語義。它們展現出高級的邏輯和社會推理能力，能夠處理文本、語音和圖像。它們支持多種語言，并通過迭代學習技術進行自適應。

社交互動

AI系統結合簡單的動作來表達情緒，并從互動中學習，以應對未來的挑戰。它們會回憶事件，并根據經驗進行微調，識別基本信號，并通過語氣和語境感知情緒。它們還能感知個體差異，并將過往經驗應用于反復出現的挑戰。

問題解決

AI系統將定性推理（例如空間或時間關系）與定量分析相結合，以解決使用傳統領域抽象框架構建的復雜專業問題。它們能夠處理多種定性狀態和轉換，預測系統如何隨時間演變或變化。

創造力

AI系統能夠生成與訓練數據截然不同的有價值輸出，挑戰傳統的界限。它們將技能擴展到新任務中，并跨領域整合想法。

元認知和批判性思維

AI系統會監控自身的理解情況，并相應地調整方法。它們處理的是可能包含模糊之處的熟悉信息，需要謹慎把握信心并做出有根據的推測。它們能夠應對部分不完整的信息，區分自己已知和未知的內容。

知識、學習和記憶

AI系統通過分布式表示學習信息的語義，并推廣到新情況。它們可以處理大規模數據集以獲得情境敏感的理解，但缺乏實時學習能力。

視覺

AI系統能夠處理目標對象外觀和光照的一些變化，執行多個子任務，并應對已知的數據和情況變化。

操作

AI系統處理各種形狀的物體和適度柔軟的材料，在低至中度雜亂的受控環境中操作。它們在開放空間中繞過小障礙物，適應隨機放置在定義區域內的物體，并在沒有時間限制的情況下執行任務。

機器人智能

機器人系統在部分已知的、靜態的、半結構化的環境中運行，具有一些明確的可變性。它們處理短期、簡單的多功能任務，這些任務雖然定義明確，但涉及內在的不確定性。它們可以參與有限的人類交互（如極簡界面），并在熟悉的任務設置中管理一些意想不到的結果。他們幾乎不涉及道德問題。

2.如何評價AI目前的能力水平？

語言：目前最先進的大語言模型如ChatGPT的GPT4o，被認為處于第3級的低閾值。大語言模型擅長獲取世界知識，跨多種語言工作，并通過微調和后處理進行迭代學習。由于無法進行結構良好的分析推理，并且容易產生錯誤信息，導致LLM難以進行穩健推理，這仍然是其發展的一個瓶頸。

社交互動：GPT-4o和同類的大語言模型在社交互動上被評定為2級，因為它們具備強大的社交記憶能力。然而，它們并非具身的，缺乏身份感且社交感知有限。像索尼的AIBO這樣的社交機器人也是2級水平，但其能力有所不同，其是具身的，擁有基本的感知和身份，但它們解決問題的能力不如大語言模型系統。

問題解決：符號AI系統在物流規劃和模型檢查等狹窄領域展示了超人類的能力，因此被評為2級水平。盡管LLM能夠滿足某些3級要求，例如解決以自然語言描述的問題，但由于它們的幻覺問題，它們仍然過于脆弱。這一點仍然適用于早期的“推理”模型，比如在2024年底發布的GPTo1預覽版。更先進的“推理”模型，如GPTo3和DeepSeek R1 V3是否如此，將在OECD人工智能能力指標的完整版中進行分析。

創造力：當前的AI系統能夠生成對人類有價值的輸出，有些新穎，有時甚至令人驚喜。谷歌的AlphaZero就是一個達到3級水平的例子，它利用神經符號架構，生成了高效且令人驚訝的策略。LLM依賴于概率架構和訓練數據（即先前人類生成的內容），這意味著它們無法生成與現有人類知識有顯著差異的輸出。然而，這些輸出通常很有用，有時甚至很新穎，這意味著LLM是典型的2級水平。

元認知與批判性思維：目前最先進的LLM通常在元認知和批判性思維上被評為2級。它們能夠監控自己的理解，并根據當前問題調整其解決方法。然而，它們在整合不熟悉的信息或評估自身知識方面存在困難，而這正是3級所要求的水平。在評估時，代理系統通常也表現為2級，這反映出AI在自我監控和自適應調節自身推理能力方面的持續局限。

知識、學習與記憶：LLM和相關形式的生成式AI是這一領域的前沿系統，通過從存儲知識中進行概括等能力，達到了3級。盡管在這一領域已經進行了一些關于AI智能體的研究，但迄今為止沒有任何系統表現出4級所要求的能力，例如通過與世界的互動進行增量學習，或具有對知識空白的元認知意識。

視覺：目前前沿的AI視覺系統處于3級。雖有少數具有有限4級能力，然而這種性能尚不足以讓任何系統達到該等級。3級系統能夠穩健地處理有限范圍的數據類型，并能應對目標物體在光照、形狀和外觀方面的細微變化。與4級系統不同，當前的AI視覺系統無法基于自我反饋來提升性能，也無法應對光照和目標物體的較大變化。

操作：目前AI操作系統被評定為2級。典型的最先進系統是用于高度控制的制造環境中的機器人手臂。相比之下，3級系統能夠在適度雜亂和動態的環境中工作，能夠處理形狀、大小和重量各異的物體。操作系統仍距離人類水平還很遠。然而，在物體和環境能夠標準化的情況下——例如在工廠中——這些系統仍將對人類就業產生影響，且對技能需求的影響依然存在。

機器人智能：最先進的機器人系統是自主配送機器人和工業自動化系統，它們被為2級水平。這些系統在結構化環境中執行預定義任務時表現良好。然而，機器人系統目前無法可靠地執行多步驟任務或與人類協作，這是達到3級所必需的。

3.為什么要推出AI能力指標框架？

該報告指出，目前對AI發展存在不同看法，有的認為AI將將拯救世界，有的認為AI將毀滅世界。在這樣一個充斥著炒作與恐懼的話語環境中，對于AI真實能力的清晰、可靠且具細致區分度的信息依然嚴重缺失。即使是AI的開發者，也并不完全了解當前AI系統的能力，或它們正在以多快的速度發展。

OECD這一框架為政策制定者提供了他們急需的清晰指導，幫助其在日益復雜的技術環境中做出理性決策，并制定具有前瞻性的戰略。自2022年ChatGPT推出以來，AI與機器人技術迅速發展，全球政策制定者普遍意識到評估其能力的緊迫性。例如，歐盟的《人工智能法案》明確規定要進行定期監測。與此同時，OECD理事會的《人工智能建議書》以及2025年巴黎AI峰會也強調了理解AI對勞動市場影響的重要性。

盡管關注度有所提升，但一個長期存在的缺口仍未填補：目前尚缺乏一個系統化的框架，能夠以易于理解且與政策制定相關的方式全面衡量人工智能能力。為彌補這一不足，OECD開發了一套AI能力評估框架，并推出了測試版“AI能力指標體系”。該指標體系的設計具有以下四大特征：

易懂性——以直觀方式呈現人工智能的優勢與局限；

政策關聯性——為教育、就業及經濟領域受AI影響的情況提供洞察；

全面性——涵蓋人工智能能力的所有關鍵維度；

動態響應性——通過系統性更新追蹤AI技術發展進程。

將AI能力與人類能力對標，有助于政策制定者更準確地評估AI在教育、工作和日常生活中可能發揮的作用。目前ML Commons和斯坦福AI指數等主流AI評估框架僅通過基準測試表現來刻畫AI能力，缺乏與人類能力的直接對比。這種孤立呈現的基準測試結果存在雙重局限：對于非AI專業人士而言晦澀難懂；即便是AI研究人員，也難以據此判斷這些指標如何反映AI系統在真實場景中的實際任務執行能力。

資料來源：

OECD (2025), Introducing the OECD AI Capability Indicators, OECD Publishing, Paris, https://doi.org/10.1787/be745f04-en.

[本文為教育部國別和區域研究基地中國教育科學研究院國際教育研究中心研究成果]

本文由中國教育科學研究院“教育國際前沿”課題組成員整理，課題組負責人張永軍，編輯劉強，內容僅供參考。點擊左下角“閱讀原文”可下載該文獻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.