網易首頁 > 網易號 > 正文申請入駐

千人千面的真人級AI名師，劈開教育「不可能三角」

2025-12-30 12:21:49　來源: 量子位

北京舉報

分享至

Jay 發自凹非寺量子位 | 公眾號 QbitAI

注意看，這是一個教育領域的AI應用新物種——

咱就是說，這講課節奏，這語氣，這互動，也太自然了。

更重要的是，它不僅能「像老師一樣講課」，還能針對每一位學員進行一對一的個性化教學。

這位AI導師，出自一家名為「與愛為舞」的AI原生應用企業。自年初上線以來，已累計為百萬級用戶提供學習陪伴與一對一講解服務。

教育行業，向來是個「規模、質量、成本」的不可能三角

既能做到千人千面，又能服務百萬名學員，還幾乎看不出是AI……更是難上加難。

它究竟是怎么做到的？

與愛為舞用來劈開這個不可能三角的，是一把硬核的技術巨劍

AI教育，要的不止「答案」

而鑄造這把技術巨劍，有三塊核心組成部件：「模型+語音+工程」。

先看模型

得益于CoT的Scaling，大模型解決復雜問題的能力指數級增長，「做題」水平突飛猛進，甚至能斬獲「奧賽金牌」。

摘得奧賽桂冠，AI只需要給出標準答案。但搞教育不行。

先來看一個簡單的英語語法題：

Lily expectsher grandparents in the countryside next month.
A. visiting｜B. to visit｜C. to have visited｜D. having visited

大模型給出的解答如下：

這道題的正確答案是B. to visit。
核心考點解析：
動詞固定搭配，動詞 expect（期望、預料）的常用用法是——
expect to do sth.（期望做某事），后面需要接不定式（to + 動詞原形）作賓語。
B選項to visit是不定式的一般式，用來表示與謂語動詞（expect）同時或之后發生的動作，符合 “下個月看望祖父母” 的將來時態邏輯。
我可以幫你整理一份常見接不定式作賓語的動詞清單，方便你記憶，需要嗎？

答案是對了，看起來好像也講了解題過程，但如果拿這套方法教學員，那肯定是要被家長投訴的啊……

完全沒有引導學員思考，一上來就把答案透露了。就像個純天賦型學霸，風馳電掣做完題，然后猛地丟給你一個結果，問你：「我說的對不對！」隨后才給出一串看似頭頭是道的分析。

不過，硅基大佬，小弟我根本聽不明白你在說什么啊！

最后還要給你一份「動詞清單」，直接默認教學等于枯燥的背誦，而沒去想怎樣引導學員的主觀能動性。

歸根結底，通用大模型的設計初衷就不是教育。它拼盡全力，只想向用戶證明一件事——「厲害吧，哥啥都知道！」

古人講：授人以魚，不如授人以漁。導師如果光顧著自己拿金牌，這師生關系就亂了套了。

想要成為一名好導師，AI需要學會放低姿態，真正關心學員的課堂體驗。

首先，AI得明白各學科的核心知識圖譜、關鍵考點和常見解題方法，這些才是學員能服用的，是最基本的「知」。

在此之上，AI還得學習名師是怎么設計講解順序的，并從中總結歸納出一套頂尖教師的授課方法論。這是更高維度的「知」。

陸游講，「紙上得來終覺淺，絕知此事要躬行。」

「知」總是相對容易的，重點是如何把紙上談兵那套，搬到現實世界里實踐起來。

所幸，「行」方面，與愛為舞有相當充足的彈藥。

據悉，他們已積累了約百萬小時的音視頻互動數據，特別是包含大量業內TOP級名師的授課視頻。

在此基礎上，團隊又根據學員的認知水平與學習態度，構建出多類型的「虛擬學員」，讓他們與AI導師進行「搏擊」，每周又能收獲數萬小時的合成數據

這些數據在經過篩選與清洗后，會交由專業教研進行把關。

具體而言，教師們會把自己多年的「教學經驗」，根據場景具象化為一條條思維鏈，最終匯集成一本「好老師紅寶書」：

每個知識點該如何拆解，與學員互動時如何循循善誘……不止要讓AI學會怎么講課，更要明白「為什么要這么講」。

這種手把手教的方式效果很好，但成本也相當高。

隨著方法論逐漸成熟，團隊索性將這一環節也自動化，讓AI模仿專業教研參與數據標注。

備考資料準備就緒，下面就該著手訓練了。

第一步，照貓畫虎。

那些相對容易標準化的知識，已體現在標注數據之中。AI需要做的，是通過模仿專業教師的思維鏈，逐步摸索出每一個教學動作背后的真實意圖。

這一微調過程，能大幅降低AI「自我發揮」帶來的的幻覺率，同時培養更穩定的推理能力與泛化能力。

能做到這一點，就算是打牢了基本功。

最基本的教法、節奏和經驗都已被「固化」，能以標準化形式面向所有學員輸出，教學質量的下限得到保障。

但如果目標只是及格，這件事就沒意義了。

師傅能陪伴的路程就到這。接下來，得能靠AI自己上路修行。

第二步，終于到了大家喜聞樂見的強化學習環節。

在教育這個場景下，與愛為舞的獎勵函數圍繞教學路徑規劃質量、教學有效性與教學靈活性等維度設計，通過GRPO給AI做強化。

這步結束，AI徹底出師——不僅能夠完成授課任務，還能駕馭課堂節奏，提高趣味性，根據不同學員靈活調整教學策略。

那么接下來，就該真正走進「教師資格證考場」了。

不過，教育不是一個有標準答案的任務，Benchmark肯定是行不通。筆試應該如何設計？

與愛為舞的做法很簡單，甚至有些「粗暴」——筆試啥，直接把AI丟到講臺上，看學員的真實反應。

第一步，是在模擬課堂中試水。

這個課堂由多類型的模擬學員組成，團隊會按照真實分布規律注入一批線上數據，再由評分模型從多個維度對AI導師打分。

模擬課堂如果表現不錯，AI會迎來更嚴苛的終極試煉場——直連真實教學一線

AI能否駕馭高度不確定的真實課堂？是否真的能擺脫照本宣科？答案，只能由學員來評判，再好的數據標注導師也幫不了。

即便成功拿下了「教師資格證」，但教學，依然是個終身學習的過程。

正式上線后，海量的學員數據會被持續建模，AI導師將基于每一位學員的專屬檔案庫，為其定制個性化課程。

至此，AI導師才算具備了千人千面的能力。不僅下限有保障，上限也很高。

「真人級」AI導師

通過「知」與「行」的雙重訓練，與愛為舞得以將通用大模型，塑造成一個真正懂教學的名師AI模型。

然而，再聰明的模型，無法與學員真實互動，最終仍會淪為一顆「缸中之腦」。

AI導師需要「耳朵」。

作為導師，連學員的問題都聽不清楚，最后聊的牛頭不對馬嘴。不僅顯得導師呆若木雞，學員的積極性也會大打折扣。

但現實是，課堂不是錄音棚。真實環境往往充斥著噪音，如果有電視，甚至會出現多個人聲摻雜在一塊的情況。

即便能輸入干凈音頻，中國有各種各樣的方言，不同學員的咬字發音習慣也不同，識別難度相當高。

雪上加霜的是，在傳統ASR范式下，輸入模型的只是一段孤立的語音，基本沒什么上下文。一旦放到教學場景下，AI很容易把同音字混淆。

例如，「極限」和「極線」。

前者是微積分中的核心概念，后者則屬于二次曲線相關的幾何術語。二者在語義上截然不同，發音卻完全一致，如果沒有上下文，僅憑語音幾乎無法區分。

為解決這個問題，與愛為舞基于其長期積累的教育場景與課堂教學數據，自研了一套多模態語音理解大模型，讓語音識別不再只「聽聲音」，而是能夠理解所處的教學上下文。

在此基礎上，團隊進一步自研了聲紋降噪模型，可以將學員和家長說話的聲音區分開。

事實證明，憑借「上下文理解+聲紋降噪」，ASR識別效果有了質的飛躍：句準確率從行業內開放API的80%左右的最好效果，大幅度提升至95%以上，接近真人理解識別水平。

聽清楚學員的問題，思考完畢，下面就該導師開口指點迷津了。

目前，行業主流語音合成架構基本都是LLM或者LLM+Flow/Diffusion的方案。

真用到課堂里，會暴露出三個問題：人機味明顯、不像在上課、不支持雙向實時交互。

下面看看，與愛為舞是如何邁過這三道坎的。

先來最直觀的——人機感

在底層架構上，團隊采用了LLM+Flow方案，引入了兩類speech token：一類負責聲音本身的細節，一類負責語義和表達節奏。

在此基礎上，結合強化學習，可以讓AI學會正常說話應有的抑揚頓挫。

不過，光會說話可不行，老師上課得有個「老師」的樣。

為此，團隊拿出了大量真實課堂數據，對不同學科、不同導師的講課方式進行了建模：有的導師說話像機關槍，有的導師則更慢條斯理。

落地時，團隊還會為每位主講名師單獨設計錄制腳本。這樣，數據收集效率更高，還能最大程度還原名師聲線，保證聲音的「質感」。

具體效果如何嘛，我們可以一起聽聽下面這兩段音頻。

（文本：接下來我們看這個題，圖中表示水蒸氣直接變成冰的過程）

這是第三方TTS，不僅表現力較弱，還出現了發音錯誤，如果是上課很容易出戲。

相比起來，這段是不是「活人感」足了很多？

這正是自研模型的優勢，發音更自然，更穩定，情感表現也更好。

至于雙向實時交互，AI導師需要邊說話邊理解學員是否在主動打斷詢問導師問題，并且做出及時的響應，這是AI導師智能與否最重要的能力之一。

為此，團隊研發流式語義VAD和打斷模型，能夠讓AI導師實時識別學員是否有真實打斷意圖，識別準確度可以達到90%以上。

而為了讓AI導師真正「站上講臺」，團隊還為其配套設計了逼真的數字人形象：口型、面部表情與肢體動作高度同步，且支持實時互動。

這下，AI導師可算是湊齊了自己的蓮藕肉身三件套——「耳朵+嘴巴+身體」。

當AI開始具備人的溫度，信任才有可能建立，學員也更不容易分心。

百萬AI學習原住民

話說回來，即便「大腦、耳朵、嘴巴」全部補齊，我們依然無法解釋與愛為舞是如何實現規模化落地的。

畢竟，從語音識別，到模型思考，再到語音合成，最后還要驅動真人級數字人，這條服務鏈路相當長。

任何一個環節稍有遲滯，都會嚴重影響學員的課堂體驗。

而當用戶規模放大，「千人千面」會帶來更高頻的推理請求，一旦調度或資源分配稍有不慎，服務質量會迅速下滑。

想要實現大規模落地，AI導師還需要一顆能持續供血、且足夠強健的「心臟」。

首先，得把這條冗長的服務鏈疏通，保證「血管」里不堵。

在《思考，快與慢》中，Daniel Kahneman提出，大腦為了偷懶，演化出了兩套工作模式：靠直覺行事的「系統一」、調用認知資源的「系統二」

與愛為舞借鑒的，正是這一點。

當學員開口提問時，系統不會一股腦把問題全丟給大模型，而是先做一次判斷：

能馬上回答的，直接走快速通道；真正需要推理的，再交給大模型慢慢想。

具體而言，簡單問題會先由快速回答系統給出反饋；與此同時，大模型已經在后臺并行啟動。等學員聽完前半句，模型的「思考」也完成了一大半。

于是，模型回復的延遲可壓縮到100ms以內，整條響應鏈路穩定在1–1.5秒

同理，如果學員在導師講話時突然插話，AI也不會傻等學員全部說完再思考。而是立刻結合上下文判斷學員的意圖，提前開始構思。

這樣響應時間仍可控制在100–200ms，整條鏈路不超過1.6秒

當然，遇到一些開放式問題，確實要多想一會兒。

但即便如此，AI導師也不會「卡住不動」，而是通過表情變化、過渡性話語告訴學員：我在想，你稍等。而不是空氣突然安靜，一人一AI面面相覷。

血管疏通之后，還可以通過「提前緩存」，讓血液循環得更順暢一些。

在真實教學中，同一堂課的核心知識點其實相對固定。哪怕學員的具體問題不同，總體來看仍有一定規律可循。

先從輸入說起。

大模型在生成答案前，要先「讀懂問題」（prefill），再「組織回答」（decode）。而前者非常吃算力，并且很耗時間。

團隊的做法是，把Prompt結構化：在不影響回答質量的前提下，把同一類場景里老是出現的內容集中起來，從而讓AI少做重復閱讀。

再看輸出

學員千差萬別，但在具體知識點上，很多人其實都是在同一個地方「栽跟頭」。既然如此，AI導師就沒必要每次都從頭生成一整套講解。

因此，團隊會以題目、引導方式和學員回答作為索引，把模型的講解結果先存下來。一旦再次遇到相同情形，直接拿來用就好。

通過這套「鏈路優化+緩存」的組合拳，與愛為舞將整個流程控制在了1s-1.6s之間。

筋骨與脈絡就位，接下來，該讓心臟泵得更有力了，與愛為舞在大規模并發上也做了大量工作。

首先在單機上，為了榨干每一張GPU，團隊在系統設計之初就完成了顯存地址的統一規劃，全程實現顯存共享，盡量避免數據在不同計算與存儲介質間反復搬運所帶來的性能損耗。

與此同時，在GPU算子層面，團隊又針對核心計算路徑進行了專項加速，使單卡的有效吞吐能力提升約5倍，足以支撐起幾十路真人級數字人的推理。

其次在集群上，資源的調度能力同樣至關重要。團隊又從五個層面，對整體系統做了進一步加固：

多數字人統一調度：同一個資源池中不同形象統一調度，從而更好的復用集群資源；
系統抽象：對話輪次化、課節內容組件化、知識點任務化，讓復雜流程標準化；
并行計算：盡量不浪費任何空閑算力，AI導師還在講上一題時，下一題的計算已經在后臺悄然啟動；
預留容量：服務支持橫向擴容，不同層級配有多種緩存與緩沖機制，一層層削薄高峰流量，避免高并發請求同時壓向模型與數據庫；
保險機制：整個教學調度過程可恢復，即便遭遇網絡中斷或客戶端異常退出，教學狀態也不會丟失。

憑借一臺全速運轉的AI發動機，加上一張巨大的工程降落傘，與愛為舞得以把AI導師「空投」到全國各地，成為業界首個支持萬人并發的真人級AI教學系統。

歸根結底，與愛為舞從未將AI視作一個簡單的輔助工具。

在他們看來，比起技術升級，AI更像一場關于個體工作邏輯與組織管理范式的深層重塑。

回頭看今天的企業形態，其實很多都是工業時代的妥協產物：人的精力有限，只能把分工越拆越細，組織層級上層層加碼。

一道道龐大的部門墻，雖防止了團隊混亂，但也淹沒了許多人才的主觀能動性。

AI的出現，第一次讓生產力得到完全釋放，每個人都能擔任「架構師」。

在此背景下，與愛為舞提出「全員皆超級個體」——只要有想法，任何人都可以手握數據與算力這兩棟「糧倉」，調度一支由智能體組成的硅基軍團，以極低的成本，快速實現搶跑。

而這一理念，也已在產品上得到驗證——

至今，「愛學」已服務百萬級用戶，學員分布于全國342個城市：東至佳木斯，西達克孜勒蘇，南抵三沙，北至大興安嶺。

關于AI原生的企業理念，市場已經給出了自己的判斷。

而當AI真正開始惠及百萬學員，我們或許終于有機會，兌現孔夫子兩千多年前所期待的那個美好愿景——「有教無類、因材施教」

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.