網易首頁 > 網易號 > 正文申請入駐

斯坦福研究：當前教育AI論文因果證據不足

2026-04-09 08:35:43　來源: 國際與比較教育研究所

北京舉報

分享至

2026年3月11日，斯坦福大學教育AI中心（AI Hub for Education）發布《K-12中AI的證據基礎：2026年綜述》（The Evidence Base on AI in K-12: A 2026 Review）報告，概述了當前與K-12教育環境相關的AI研究特征，并總結了探究AI工具如何影響師生的強因果研究主要發現。

該報告開篇指出，在K-12教育領域，教師、學校領導者及政策制定者正置身于一個迅速擴張的AI工具生態之中，卻鮮有嚴謹的實證依據可供其決策參考。AI工具的發展速度已超越了研究人員對其評估步伐，這使得教育工作者在面對技術采納、實施與投資等重大抉擇時，往往只能依據極其有限的證據——即尚不明確究竟何種技術有效、適用于何人、以及在何種條件下有效。

盡管確鑿的研究成果正在逐步涌現，但學校方面已面臨著日益高漲的社會期許：既要培養學生以適應一個與AI深度融合的未來世界，又要著力應對那些早在AI時代到來之前便已顯現的學生學業成績下滑問題，同時還要順應關于“面向未來的能力”這一概念不斷演變的內涵。

為此，斯坦福大學教育AI中心在2025年初推出旨在幫助教育界領導查閱關于K-12教育領域AI應用的最新研究成果“研究資料庫”平臺（scale.stanford.edu/ai/repository），并每月更新，同時支持按應用場景、用戶、年齡、目的、設計類型檢索。該報告即基于這一資料庫截至2025年10月收錄的逾800篇論文的數據，并重點對有高質量因果證據的20篇文獻（這些研究嚴格研究了AI工具如何影響學生或教育工作者）進行了分析。

該報告的研究發現具體如下：

一、教育AI研究論文增長迅速，聚焦學生用戶，因果影響關注數學技能較多

該報告發現，近年來教育AI研究論文數量呈現較快增長速度，2023年1月，僅有28篇論文符合其“研究資料庫”的收錄標準——即涉及將AI或機器學習應用于K-12教育，或與該領域密切相關的研究。而在不到三年的時間里，這一數字已激增至超過800篇學術論文（涵蓋預印本及期刊文章）。過去一年間，這一增長勢頭尤為迅猛，僅在2025年1月至9月期間，論文數量便實現了翻倍。

從研究對象來看，大多數教育AI研究論文以學生為用戶，占其“研究資料庫”的59%，在探討因果影響的論文中更是近四分之三（70%）聚焦于學生。不到一半的論文將教育工作者作為用戶進行研究（占研究資料庫論文的48%，以及探討因果影響論文的40%）。此外，許多論文（23%）也考察了教師與學生共同使用的AI工具。針對學校領導、家長及看護者使用AI的研究則相對有限，僅占研究資料庫論文總數的約3%。

從研究學科來看，因果影響論文不成比例地關注AI對數學技能的影響。盡管研究資料庫中僅有17%的論文探討數學技能，但在涉及因果影響的論文中約有35%聚焦于數學技能。相比之下，盡管研究資料庫中近50%的論文關注其他學科（如科學、編程、語言及社會研究），但在涉及因果影響的論文中，僅有25%關注此類成果。關注讀寫能力（20%）及社會情感（15%）的因果影響論文所占比例均在20%或以下。

從研究學段來看，多數教育AI研究是在中等后教育環境中開展的，但其因果證據基礎卻更多地集中于高中情境（盡管研究資料庫側重于與K-12教育相關的研究成果，但也包括在中等后教育背景下開展的可能適用于K-12教育的研究）。

從研究設計來看，K-12教育AI研究中只有一小部分是因果影響研究，大部分未評估影響。研究資料庫中的大多數研究屬于描述性研究（46%），或是技術性/計算性研究（46%）。相比之下，隨機對照試驗（RCT）和準實驗設計（QED）類論文所占比例要小得多，分別為8%和5%。此外，許多論文也采用了其他定量研究方法（30%）。這表明，在現有的證據基礎中，因果研究仍僅占相對較小的份額。在這些因果研究中，90%屬于RCT，約五分之一（20%）屬于QED（部分研究同時包含RCT和QED成分）。

二、AI可提高學生學習成績，但不一定具有轉移性且可能影響深入思考

該報告通過對具有強因果證據的研究論文分析發現，AI對學生的影響主要體現以下方面：

1.即時成效

當學生能夠直接使用AI工具（包括自動反饋工具、通用和輔導型AI聊天機器人）時，這些工具能顯著提升他們在數學練習、編程項目及寫作任務中的表現。

2.短期助益，遷移成疑

AI工具雖能在使用期間提升表現，但若在脫離AI輔助進行獨立評估時，其成效則參差不齊。

這些發現表明，工具輔助的表現與持久學習之間存在著重要的區別。AI工具或許能幫助學生在當下更成功地完成任務，但當學生之后被要求獨立完成任務時，這些成效并不總是能夠持續。

一種可能的解釋是：學生可能只是學會了如何配合工具進行操作，而非真正習得了獨立完成任務所需的底層知識和推理技能。另一種可能的解釋是：學生或許確實習得了相關內容，但其學習方式卻無法適應情境變化或輔助工具缺失時的需求。即便在傳統的教學模式下，實現知識遷移也絕非易事；而在當前研究的特定情境中，AI工具的介入可能會進一步增加復雜性，導致學生難以將技能內化為一種能夠支持靈活運用的形式。

3.省力未必更優

AI工具雖能減輕學生的認知負擔并營造積極的學習體驗，但這往往是以犧牲深度思考為代價的。

4.教學設計至關重要

相比通用型AI工具，那些內置教學“護欄”的工具（例如，提供循序漸進的解題思路而非直接給出答案的輔導型AI聊天機器人）展現出了更廣闊的應用前景。

學習科學為解讀這些發現提供了一種方法，下表概述了一些關鍵的學習科學原理，以及與之相對應的AI機遇與風險。

學習原則

描述

AI的機遇與風險

知負荷理論（Sweller，1988）

通過平衡內在的、外在的和相關的（生產性的）負荷來管理有限的工作記憶容量。

AI能夠通過高效地檢索和整理信息來減輕不必要負荷，從而有可能釋放認知資源以進行更深入的學習，但它也可能減少必要負荷——即學習所必需的積極努力過程。

維果茨基的最近發展區（Vygotsky,1978）

最佳學習區即學習者能夠獨立完成的任務與在適當支持下能夠達成目標之間的區域（Vygotsky,1978）。

最有效的AI工具將在這個領域內提供腳手架，并逐步將責任移交給學習者，以防止學生產生依賴性。

學習遷移

將某一個情境中獲得的知識應用到新的情境中，這通常需要明確的教學支持來連接不同的情境（Barnett & Ceci，2002）。

一個關鍵問題在于：利用AI工具進行學習，究竟是能培養出學生可在新情境中加以運用的持久性知識與技能，還是僅僅造就出一種對工具的依賴性表現。

元認知

學生能夠監控自己的理解情況，發現知識漏洞，選擇合適的學習策略，并根據反饋調整學習方法。

元認知難以衡量，而AI可以對其大規模地測量。但與此同時，當AI工具替學生完成所有任務時，學生發展元認知技能的機會可能會減少。

專業知識逆轉效應（Kalyuga，2007）

這種現象指的是，對初學者有效的教學技巧（例如示例教學法）對更進階的學習者而言可能無效甚至適得其反（他們可能從獨立解決問題中受益更多）。

有效的AI工具會根據學習者的知識水平調整其支持級別。

理想困難（Bjork，1994；Bjork & Bjork，2011）

學習中的某些挑戰雖然感覺效果較差且即時表現較低，但卻能帶來更好的長期保持和遷移效果（Bjork，1994；Bjork & Bjork，2011）。

理想情況下，AI工具應該引入適當的合理難度，即便用戶更喜歡進行較為輕松的練習。

支撐推理的工具可能有助于支持學習，而僅僅生成答案的工具可能會減少支持持久技能發展的認知努力。

三、AI對學生教育公平和社交情感的影響證據有限

該報告指出，目前的證據基礎對于AI工具如何影響教育公平所提供的見解十分有限。AI工具具備大規模提供個性化學術支持的潛力，這有望惠及那些無法獲得私人家教或其他補充資源的學生。

除是否擁有工具本身之外，機會和使用公平性取決于多種因素。學生能否從AI工具中獲益，可能會因技術基礎設施、數字素養以及能否在校內校外均使用到這些工具而有所差異。語言無障礙性也是一個關鍵問題，因為許多工具都是針對英語優化的，可能會為英語學習者提供質量較低或有偏見的支持。同樣，AI工具雖有望為殘障學生提供新的輔助支持，但當前的研究尚未深入探究其對這些學生所產生的影響。

這些研究空白導致若干關于公平性的問題仍未得到解答：AI工具究竟是更有利于使那些本身就擁有更強學業基礎和校外支持的學生，還是能夠幫助資源匱乏的學生實現“公平競爭”？成本與許可模式又將如何決定哪些學校能夠獲取更高質量的AI工具？在當前關于因果關系的學術文獻中，鮮有研究探討這些公平性影響。

此外，該報告指出，關目前于AI對認知發展以及學生情感或社會福祉所產生影響的因果證據有限。這一研究空白凸顯了K-12教育從業者及政策制定者亟待解答的一系列重要問題：當學生與AI進行互動時，哪些條件有利于其親社會性行為的發展？AI“社交伙伴”會對兒童及青少年產生怎樣的影響？此外，無論是個人設備還是學校配發設備，哪些做法能最有效地促進學生在課外安全地使用AI？

四、AI可以為教育工作者提供有意義的支持

該報告通過對具有強因果證據的研究論文分析發現，AI對教育工作者的影響體現在以下方面：

1.AI能夠減少教師在日常工作上花費的時間，或轉移教師的工作重心，且沒有證據表明會造成教學質量下降。

2.AI可以對教學和學生進步情況提供自動反饋，從而提高教學質質量和學生成績。

3.AI能夠提供實時的教學建議，從而提升教師的教學實踐和學生的學習成果，尤其是在基于信息交流的環境中。

4.AI教學輔助工具似乎對評級較低和經驗較少的教師最為有益。

另外，該報告指出，目前的研究尚未明確AI工具究竟是能幫助教育者培養持久的教學技能，還是會讓他們更加依賴自動化指導。進一步的證據有望闡明AI在不同學校情境下如何影響教師的教學實踐與學生的學習成效，以及這些工具究竟是縮小了還是加劇了既有的教學質量差異。

該報告最后指出，AI的發展速度和類型可能會影響證據隨時間積累的方式。研究AI對社會學習、動機以及人類能力增強所產生的影響依然是一項重要的優先事項。

理解AI的長期影響（如技能發展、畢業、中等后教育階段的持續深造，或勞動力市場表現）可能需要多年的縱向研究。同樣，評估AI工具是否會改變學生的認知發展或獨立解決問題的能力需要更長的時間跨度。

然而，AI系統的快速發展意味著研究結果可能與特定的工具版本及實施環境密切相關。這就造成了長期研究（評估持續影響）和短期研究（提供當前使用工具的及時證據）之間固有的矛盾。隨著時間的推移，對AI教育作用的更清晰理解，不僅取決于工具是否平均有效，還取決于它們何時、如何以及對哪些人群最重要。

回答這些問題將是從早期的混雜研究結果轉向更清晰的影響結論的核心。

資料來源：

Lily Fesler，etc. The Evidence Base on AI in K-12: A 2026 Review. The existing research on the impacts of AI on students and teachers. https://scale.stanford.edu/sites/default/files/The%20Evidence%20Base%20on%20AI%20in%20K-12%20Report.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.