網易首頁 > 網易號 > 正文申請入駐

聲網錢奮：從內容到對話：對話式 AI 重塑教育場景的新模式

2025-12-01 18:55:49　來源: 芥末堆看教育

北京舉報

分享至

11月17日至18日，芥末堆在北京舉辦以“教育有AI，學習無界”為主題的GET2025教育科技大會。聲網教育行業產品負責人錢奮以《從內容到對話 - 對話式 AI 驅動教育場景新模式》進行了主題分享。

錢奮在分享中，系統梳理了 AI+教育的產業變化、應用趨勢與技術路徑。他指出，在過去十年中，教育科技的內容化與工具化已相對成熟，而對話式 AI 的出現正在重構教學互動方式，使學習從“工具型使用”走向“陪伴式體驗”。隨著 AI 技術發展，以及教育信息化政策推進、AI 老師與 AI 助教等新形態產品興起，對話式 AI 正成為推動場景創新、提升教學效率的重要力量。

以下為演講實錄，經編輯：

大家上午好，我是來自聲網的錢奮，目前負責聲網教育行業的產品落地和解決方案。很高興再次來到 GET 大會，與各位交流我們在教育領域的實踐經驗。

我今天分享的主題是《從內容到對話 - 對話式 AI 驅動教育場景新模式》，將重點探討對話式 AI 技術如何賦能教育新場景。

過去十年，教育科技在內容數字化與工具化方面已相當完善。尤其是近兩年大模型技術的突破，將內容生成能力推向極致。我們注意到，越來越多教育機構開始探索對話式 AI 的技術演進，并將其融入實際教學場景中。

聲網作為全球實時音視頻與對話式 AI 云服務的開創者，在此領域具備深厚積累。目前，我們在實時互動市場份額位居行業首位，擁有50多項自主創新技術，全球累計注冊應用超過74萬。在10月舉辦的 RTE 2025大會上，我們宣布實時互動分鐘數首次突破萬億。

當前，聲網的實時互動技術已廣泛覆蓋教育全場景，包括素質教育、通用教育等細分領域。

AI+教育：確定性的增長賽道與細分機會

從2024年至2030年， AI+教育市場規模預計將實現近十倍增長。這清晰表明，該賽道正處于確定性增量階段，為產品與服務創新提供了廣闊空間。

去年我們內部評估時還相對保守，認為教育行業在“雙減”后迭代較慢，不太可能出現爆發式增長。但今年以來，隨著“百模大戰”與教育大模型的興起，內容生成能力已趨極致， AI 老師、 AI 助教等新形態產品紛紛涌現，整個賽道呈現出高度活躍態勢。

從研報數據來看，當前 AI+教育主要圍繞兩大方向展開：

一是教育信息化。在政策推動下，越來越多學校與機構開始布局 AI 能力，并將其納入教學體系。

二是課外培訓與K12應用，包括 AI 老師、 AI 助教、語言學習與作業輔導等。此外，幫助教師提升工作效率的 AI 工具也迅速普及。

素質教育和早教領域目前市場規模較小，尚未出現現象級應用，仍處于探索階段。

2024年教育行業共發生81起融資事件，其中21起與 AI 技術相關。而今年上半年，25起融資中22起涉及 AI 。這表明， AI 已從“可選項”轉變為教育項目的“必選項”。

我們將AI教育場景的成熟度劃分為L1至L4四個等級：

· K12 校外應用（如解題、口語陪練、出海產品）成熟度最高；

· 教育信息化、教學效率工具、學情分析等處于快速發展階段；

· 學習機與教育硬件 AI 化也已較為成熟；

· 而中老年教育、早幼教等領域仍處于探索期。

當前教育應用排行榜中，教輔工具與語言學習類產品占據主流，其商業化路徑也相對清晰。

若想在 AI 教育領域打造產品，應緊扣剛需、高頻場景，單純售賣 AI 能力并無亮點。語言學習、解題輔導等場景用戶付費意愿強，商業規則清晰，具備度量和復制的可能性，容易形成規模化產品。

AI 教育產品正從“功能導向”邁向“體驗導向”

從需求側看，隨著 AI 技術演進，產品形態正從“工具型”向“陪伴型”轉變。目前，創業者、教育從業者與機構負責人普遍意識到， AI 教育產品的核心訴求已從早期的“答案是否正確”轉向“產品是否好用”。

在大模型發展初期，用戶更關注 AI 能否給出正確答案；而隨著技術成熟，用戶開始重視使用體驗——例如交互是否流暢、能否隨時打斷錯誤回答、背景噪音是否影響交互等細節。這說明， AI 教育產品正從“功能導向”邁向“體驗導向”。

AI 教育產品的演進路徑：

· 早期工具時代：以內容生成與文字識別為主，可提供答案但缺乏互動，本質上仍是工具；

· 對話式 AI 2.0時代：支持語音交互與多輪對話記憶， AI能說會道，更像教學助手；

· 未來擬人化階段：AI 以數字人形象實現實時互動，兼具知識引導與情感反饋能力。

從人機交互演進來看，最終方向一定是語言交互。對話式 AI 正推動機器以更智能的方式與人溝通。

自 GPT-3到 GPT-4o，對話式 AI 不斷突破。特別是在 GPT-4o 發布時，實時人機對話令人驚艷，標志著真正對話式交互場景的到來。

但目前 AI 與真人對話體驗仍有差距。真人交流中，我們能自動過濾背景噪音、保持注意力集中，而 AI 尚不能完全做到。要提升 AI 的教育場景體驗，需解決延時、打斷、注意力鎖定、情感表達等關鍵問題。這也正是聲網在對話式 AI 領域重點投入的方向。

聲網對話式 AI 引擎2.0：如何打造“真人級”對話體驗？

如果你打算做客戶端 APP ，或是各類硬件——現在教育硬件非常火，比如各種陪伴式機器人；也包括傳統的電話接入業務——雖然它不完全屬于核心教學場景，但所有教育機構幾乎都有客服或售前電銷的需求，這里面同樣蘊藏著豐富的 AI 對話應用機會。

聲網在這一塊打造的引擎，目標就是把對話體驗做好、做得足夠像真人，讓 AI 聽起來就像一個真實的人在與你交流——這類技術非常關鍵。

我們做了很多底層工作，例如語音檢測——能準確判斷你是否真的在說話，而不是一有背景雜音就觸發回復；還有降噪、混音消除、注意力鎖定等一系列能力。

引擎引入 AI 智能中樞。正常人說話一秒大約2～3個字，最快也不過3～5個字。人和人之間對話的傳輸是基本固定的，也就是碼率或數據量大致穩定，但人和 AI 之間的傳輸機制則完全不同。用戶在說完話之后，AI 需要快速處理文本 Token 并生成回應。

為此，我們在應用中加入了‘預生成緩存’功能：用戶說話時，系統會提前將 AI 的回應內容預先生成并緩存到客戶端。即使網絡條件不佳，對話仍能保持流暢——因為回應內容已提前存儲，可直接調用。這就是我們的 AI 智能傳輸技術。

在技術底層，我們對接了豐富的能力，包括 ASR 、大模型、 TTS ，以及數字人等。我們提供了大量接口，方便大家接入自己偏好的模型或技術供應商。我們深知，在業務層，各位比聲網更懂教育場景，因此這一塊必須貼合大家的實際需求。

那么，具體怎么選擇合適的方案呢？聲網推出了AI 模型評測平臺（對話式），它能從多個維度幫你判斷：什么樣的對話場景，該選什么樣的模型、 TTS 或 ASR 才最合適。如果你追求整體最優，可以選擇“綜合最優”；如果場景對實時性要求極高，就選“響應最快”；如果更看重成本，我們也提供“成本最優”的選項。

如果業務部署在不同地區，你也可以按區域靈活選擇。在我們的平臺上，你可以自由選用主流語音識別模型，每家廠商的延時、價格都一目了然。這樣，無論是選型還是選供應商，你都能清晰做出最適合自己的決策。

此外，聲網還推出了對話式 AI Studio 。你可以把它理解為一個可視化編排工具——就像剛才幾位老師介紹他們的產品那樣，你可以輕松配置對話流程、模型參數、ASR設置，比如設定打斷時長、交互模式等等。 Studio 也支持接入第三方插件，拓展場景能力。我們還內置了多款對話模板，例如當前熱門的英語陪伴、作文批改、硬件交互等，基本上可以實現無代碼接入。

目前，已經有不少客戶與我們一起打磨產品，實現了場景升級。比如一些口語學習應用，從原來“你說一句， AI 回一句”的模式，升級為真正自由對話的 AI 老師；高途的課后輔導、豆神的雙師課堂，也接入了我們的對話式能力，引入了 AI 助教；還有一些智能口語陪練硬件，也通過對話式 AI ，從單純的內容播放器，轉型為陪伴式教學伙伴。

AI 客服與外呼場景雖然不完全屬于教學核心，但很多教育機構都在使用，這類場景能夠顯著壓縮成本、提升人效，同樣非常適合搭載對話式 AI 能力。

我的分享就到這里，謝謝大家！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.