Jay 發自 凹非寺量子位 | 公眾號 QbitAI
注意看,這是一個教育領域的AI應用新物種——
咱就是說,這講課節奏,這語氣,這互動,也太自然了。
更重要的是,它不僅能「像老師一樣講課」,還能針對每一位學員進行一對一的個性化教學。
這位AI導師,出自一家名為「與愛為舞」的AI原生應用企業。自年初上線以來,已累計為百萬級用戶提供學習陪伴與一對一講解服務。
教育行業,向來是個「規模、質量、成本」的不可能三角
既能做到千人千面,又能服務百萬名學員,還幾乎看不出是AI……更是難上加難。
它究竟是怎么做到的?
與愛為舞用來劈開這個不可能三角的,是一把硬核的技術巨劍
AI教育,要的不止「答案」
而鑄造這把技術巨劍,有三塊核心組成部件:「模型+語音+工程」。
先看模型
得益于CoT的Scaling,大模型解決復雜問題的能力指數級增長,「做題」水平突飛猛進,甚至能斬獲「奧賽金牌」。
摘得奧賽桂冠,AI只需要給出標準答案。但搞教育不行。
先來看一個簡單的英語語法題:
- Lily expectsher grandparents in the countryside next month.
- A. visiting|B. to visit|C. to have visited|D. having visited
大模型給出的解答如下:
- 這道題的正確答案是B. to visit。
- 核心考點解析:
- 動詞固定搭配,動詞 expect(期望、預料)的常用用法是——
- expect to do sth.(期望做某事),后面需要接不定式(to + 動詞原形)作賓語。
- B選項to visit是不定式的一般式,用來表示與謂語動詞(expect)同時或之后發生的動作,符合 “下個月看望祖父母” 的將來時態邏輯。
- 我可以幫你整理一份常見接不定式作賓語的動詞清單,方便你記憶,需要嗎?
答案是對了,看起來好像也講了解題過程,但如果拿這套方法教學員,那肯定是要被家長投訴的啊……
完全沒有引導學員思考,一上來就把答案透露了。就像個純天賦型學霸,風馳電掣做完題,然后猛地丟給你一個結果,問你:「我說的對不對!」隨后才給出一串看似頭頭是道的分析。
不過,硅基大佬,小弟我根本聽不明白你在說什么啊!
最后還要給你一份「動詞清單」,直接默認教學等于枯燥的背誦,而沒去想怎樣引導學員的主觀能動性。
![]()
歸根結底,通用大模型的設計初衷就不是教育。它拼盡全力,只想向用戶證明一件事——「厲害吧,哥啥都知道!」
古人講:授人以魚,不如授人以漁。導師如果光顧著自己拿金牌,這師生關系就亂了套了。
想要成為一名好導師,AI需要學會放低姿態,真正關心學員的課堂體驗。
首先,AI得明白各學科的核心知識圖譜、關鍵考點和常見解題方法,這些才是學員能服用的,是最基本的「知」。
在此之上,AI還得學習名師是怎么設計講解順序的,并從中總結歸納出一套頂尖教師的授課方法論。這是更高維度的「知」。
陸游講,「紙上得來終覺淺,絕知此事要躬行。」
「知」總是相對容易的,重點是如何把紙上談兵那套,搬到現實世界里實踐起來。
所幸,「行」方面,與愛為舞有相當充足的彈藥。
據悉,他們已積累了約百萬小時的音視頻互動數據,特別是包含大量業內TOP級名師的授課視頻。
在此基礎上,團隊又根據學員的認知水平與學習態度,構建出多類型的「虛擬學員」,讓他們與AI導師進行「搏擊」,每周又能收獲數萬小時的合成數據

這些數據在經過篩選與清洗后,會交由專業教研進行把關。
具體而言,教師們會把自己多年的「教學經驗」,根據場景具象化為一條條思維鏈,最終匯集成一本「好老師紅寶書」:
每個知識點該如何拆解,與學員互動時如何循循善誘……不止要讓AI學會怎么講課,更要明白「為什么要這么講」。
這種手把手教的方式效果很好,但成本也相當高。
隨著方法論逐漸成熟,團隊索性將這一環節也自動化,讓AI模仿專業教研參與數據標注。
備考資料準備就緒,下面就該著手訓練了。
第一步,照貓畫虎。
那些相對容易標準化的知識,已體現在標注數據之中。AI需要做的,是通過模仿專業教師的思維鏈,逐步摸索出每一個教學動作背后的真實意圖。
這一微調過程,能大幅降低AI「自我發揮」帶來的的幻覺率,同時培養更穩定的推理能力與泛化能力。
能做到這一點,就算是打牢了基本功。
最基本的教法、節奏和經驗都已被「固化」,能以標準化形式面向所有學員輸出,教學質量的下限得到保障。
但如果目標只是及格,這件事就沒意義了。
師傅能陪伴的路程就到這。接下來,得能靠AI自己上路修行。
第二步,終于到了大家喜聞樂見的強化學習環節。
在教育這個場景下,與愛為舞的獎勵函數圍繞教學路徑規劃質量、教學有效性與教學靈活性等維度設計,通過GRPO給AI做強化。
這步結束,AI徹底出師——不僅能夠完成授課任務,還能駕馭課堂節奏,提高趣味性,根據不同學員靈活調整教學策略。
那么接下來,就該真正走進「教師資格證考場」了。
不過,教育不是一個有標準答案的任務,Benchmark肯定是行不通。筆試應該如何設計?
與愛為舞的做法很簡單,甚至有些「粗暴」——筆試啥,直接把AI丟到講臺上,看學員的真實反應。
第一步,是在模擬課堂中試水。
這個課堂由多類型的模擬學員組成,團隊會按照真實分布規律注入一批線上數據,再由評分模型從多個維度對AI導師打分。
模擬課堂如果表現不錯,AI會迎來更嚴苛的終極試煉場——直連真實教學一線
AI能否駕馭高度不確定的真實課堂?是否真的能擺脫照本宣科?答案,只能由學員來評判,再好的數據標注導師也幫不了。
![]()
即便成功拿下了「教師資格證」,但教學,依然是個終身學習的過程。
正式上線后,海量的學員數據會被持續建模,AI導師將基于每一位學員的專屬檔案庫,為其定制個性化課程。
至此,AI導師才算具備了千人千面的能力。不僅下限有保障,上限也很高。
「真人級」AI導師
通過「知」與「行」的雙重訓練,與愛為舞得以將通用大模型,塑造成一個真正懂教學的名師AI模型。
然而,再聰明的模型,無法與學員真實互動,最終仍會淪為一顆「缸中之腦」。
AI導師需要「耳朵」。
作為導師,連學員的問題都聽不清楚,最后聊的牛頭不對馬嘴。不僅顯得導師呆若木雞,學員的積極性也會大打折扣。
但現實是,課堂不是錄音棚。真實環境往往充斥著噪音,如果有電視,甚至會出現多個人聲摻雜在一塊的情況。
即便能輸入干凈音頻,中國有各種各樣的方言,不同學員的咬字發音習慣也不同,識別難度相當高。
雪上加霜的是,在傳統ASR范式下,輸入模型的只是一段孤立的語音,基本沒什么上下文。一旦放到教學場景下,AI很容易把同音字混淆。
例如,「極限」和「極線」。
前者是微積分中的核心概念,后者則屬于二次曲線相關的幾何術語。二者在語義上截然不同,發音卻完全一致,如果沒有上下文,僅憑語音幾乎無法區分。
為解決這個問題,與愛為舞基于其長期積累的教育場景與課堂教學數據,自研了一套多模態語音理解大模型,讓語音識別不再只「聽聲音」,而是能夠理解所處的教學上下文。
在此基礎上,團隊進一步自研了聲紋降噪模型,可以將學員和家長說話的聲音區分開。
事實證明,憑借「上下文理解+聲紋降噪」,ASR識別效果有了質的飛躍:句準確率從行業內開放API的80%左右的最好效果,大幅度提升至95%以上,接近真人理解識別水平。
聽清楚學員的問題,思考完畢,下面就該導師開口指點迷津了。
![]()
目前,行業主流語音合成架構基本都是LLM或者LLM+Flow/Diffusion的方案。
真用到課堂里,會暴露出三個問題:人機味明顯、不像在上課、不支持雙向實時交互。
下面看看,與愛為舞是如何邁過這三道坎的。
先來最直觀的——人機感
在底層架構上,團隊采用了LLM+Flow方案,引入了兩類speech token:一類負責聲音本身的細節,一類負責語義和表達節奏。
在此基礎上,結合強化學習,可以讓AI學會正常說話應有的抑揚頓挫。
不過,光會說話可不行,老師上課得有個「老師」的樣。
為此,團隊拿出了大量真實課堂數據,對不同學科、不同導師的講課方式進行了建模:有的導師說話像機關槍,有的導師則更慢條斯理。
落地時,團隊還會為每位主講名師單獨設計錄制腳本。這樣,數據收集效率更高,還能最大程度還原名師聲線,保證聲音的「質感」。
具體效果如何嘛,我們可以一起聽聽下面這兩段音頻。
(文本:接下來我們看這個題,圖中表示水蒸氣直接變成冰的過程)
這是第三方TTS,不僅表現力較弱,還出現了發音錯誤,如果是上課很容易出戲。
相比起來,這段是不是「活人感」足了很多?
這正是自研模型的優勢,發音更自然,更穩定,情感表現也更好。
至于雙向實時交互,AI導師需要邊說話邊理解學員是否在主動打斷詢問導師問題,并且做出及時的響應,這是AI導師智能與否最重要的能力之一。
為此,團隊研發流式語義VAD和打斷模型,能夠讓AI導師實時識別學員是否有真實打斷意圖,識別準確度可以達到90%以上。
而為了讓AI導師真正「站上講臺」,團隊還為其配套設計了逼真的數字人形象:口型、面部表情與肢體動作高度同步,且支持實時互動。
這下,AI導師可算是湊齊了自己的蓮藕肉身三件套——「耳朵+嘴巴+身體」。
當AI開始具備人的溫度,信任才有可能建立,學員也更不容易分心。
百萬AI學習原住民
話說回來,即便「大腦、耳朵、嘴巴」全部補齊,我們依然無法解釋與愛為舞是如何實現規模化落地的。
畢竟,從語音識別,到模型思考,再到語音合成,最后還要驅動真人級數字人,這條服務鏈路相當長。
任何一個環節稍有遲滯,都會嚴重影響學員的課堂體驗。
而當用戶規模放大,「千人千面」會帶來更高頻的推理請求,一旦調度或資源分配稍有不慎,服務質量會迅速下滑。
想要實現大規模落地,AI導師還需要一顆能持續供血、且足夠強健的「心臟」。
首先,得把這條冗長的服務鏈疏通,保證「血管」里不堵。
在《思考,快與慢》中,Daniel Kahneman提出,大腦為了偷懶,演化出了兩套工作模式:靠直覺行事的「系統一」、調用認知資源的「系統二」
與愛為舞借鑒的,正是這一點。
當學員開口提問時,系統不會一股腦把問題全丟給大模型,而是先做一次判斷:
能馬上回答的,直接走快速通道;真正需要推理的,再交給大模型慢慢想。
具體而言,簡單問題會先由快速回答系統給出反饋;與此同時,大模型已經在后臺并行啟動。等學員聽完前半句,模型的「思考」也完成了一大半。
于是,模型回復的延遲可壓縮到100ms以內,整條響應鏈路穩定在1–1.5秒
同理,如果學員在導師講話時突然插話,AI也不會傻等學員全部說完再思考。而是立刻結合上下文判斷學員的意圖,提前開始構思。
這樣響應時間仍可控制在100–200ms,整條鏈路不超過1.6秒
當然,遇到一些開放式問題,確實要多想一會兒。
但即便如此,AI導師也不會「卡住不動」,而是通過表情變化、過渡性話語告訴學員:我在想,你稍等。而不是空氣突然安靜,一人一AI面面相覷。
血管疏通之后,還可以通過「提前緩存」,讓血液循環得更順暢一些。
在真實教學中,同一堂課的核心知識點其實相對固定。哪怕學員的具體問題不同,總體來看仍有一定規律可循。
先從輸入說起。
大模型在生成答案前,要先「讀懂問題」(prefill),再「組織回答」(decode)。而前者非常吃算力,并且很耗時間。
團隊的做法是,把Prompt結構化:在不影響回答質量的前提下,把同一類場景里老是出現的內容集中起來,從而讓AI少做重復閱讀。
再看輸出
學員千差萬別,但在具體知識點上,很多人其實都是在同一個地方「栽跟頭」。既然如此,AI導師就沒必要每次都從頭生成一整套講解。
因此,團隊會以題目、引導方式和學員回答作為索引,把模型的講解結果先存下來。一旦再次遇到相同情形,直接拿來用就好。
通過這套「鏈路優化+緩存」的組合拳,與愛為舞將整個流程控制在了1s-1.6s之間。
筋骨與脈絡就位,接下來,該讓心臟泵得更有力了,與愛為舞在大規模并發上也做了大量工作。
首先在單機上,為了榨干每一張GPU,團隊在系統設計之初就完成了顯存地址的統一規劃,全程實現顯存共享,盡量避免數據在不同計算與存儲介質間反復搬運所帶來的性能損耗。
與此同時,在GPU算子層面,團隊又針對核心計算路徑進行了專項加速,使單卡的有效吞吐能力提升約5倍,足以支撐起幾十路真人級數字人的推理。
其次在集群上,資源的調度能力同樣至關重要。團隊又從五個層面,對整體系統做了進一步加固:
- 多數字人統一調度:同一個資源池中不同形象統一調度,從而更好的復用集群資源;
- 系統抽象:對話輪次化、課節內容組件化、知識點任務化,讓復雜流程標準化;
- 并行計算:盡量不浪費任何空閑算力,AI導師還在講上一題時,下一題的計算已經在后臺悄然啟動;
- 預留容量:服務支持橫向擴容,不同層級配有多種緩存與緩沖機制,一層層削薄高峰流量,避免高并發請求同時壓向模型與數據庫;
- 保險機制:整個教學調度過程可恢復,即便遭遇網絡中斷或客戶端異常退出,教學狀態也不會丟失。
![]()
憑借一臺全速運轉的AI發動機,加上一張巨大的工程降落傘,與愛為舞得以把AI導師「空投」到全國各地,成為業界首個支持萬人并發的真人級AI教學系統。
歸根結底,與愛為舞從未將AI視作一個簡單的輔助工具。
在他們看來,比起技術升級,AI更像一場關于個體工作邏輯與組織管理范式的深層重塑。
回頭看今天的企業形態,其實很多都是工業時代的妥協產物:人的精力有限,只能把分工越拆越細,組織層級上層層加碼。
一道道龐大的部門墻,雖防止了團隊混亂,但也淹沒了許多人才的主觀能動性。
AI的出現,第一次讓生產力得到完全釋放,每個人都能擔任「架構師」。
在此背景下,與愛為舞提出「全員皆超級個體」——只要有想法,任何人都可以手握數據與算力這兩棟「糧倉」,調度一支由智能體組成的硅基軍團,以極低的成本,快速實現搶跑。
![]()
而這一理念,也已在產品上得到驗證——
至今,「愛學」已服務百萬級用戶,學員分布于全國342個城市:東至佳木斯,西達克孜勒蘇,南抵三沙,北至大興安嶺。
關于AI原生的企業理念,市場已經給出了自己的判斷。
而當AI真正開始惠及百萬學員,我們或許終于有機會,兌現孔夫子兩千多年前所期待的那個美好愿景——「有教無類、因材施教」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.