網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

【GET2025】與愛(ài)為舞王琳：愛(ài)與AI幫助每個(gè)人成為更好的自己

2025-11-22 12:22:04　來(lái)源: 芥末堆看教育

北京舉報(bào)

分享至

與愛(ài)為舞聯(lián)合創(chuàng)始人王琳在GET2025教育科技大會(huì)上演講

11月17日至18日，芥末堆在北京舉辦以“教育有AI，學(xué)習(xí)無(wú)界”為主題的GET2025教育科技大會(huì)。與愛(ài)為舞聯(lián)合創(chuàng)始人王琳就《從單向輸出，到萬(wàn)人互動(dòng)—“愛(ài)學(xué)”的AI落地實(shí)踐》進(jìn)行了主題分享。這是與愛(ài)為舞成立兩年多以來(lái)，第一次在GET大會(huì)上正式亮相，因此這次分享也吸引了業(yè)內(nèi)很多從業(yè)者和媒體的關(guān)注。王琳通過(guò)拆解一個(gè)好的AI老師所需要的必要條件，對(duì)與愛(ài)為舞的產(chǎn)品以及大模型、數(shù)字人、語(yǔ)音等技術(shù)進(jìn)展做了介紹，同時(shí)也分享了在AI應(yīng)用的創(chuàng)業(yè)過(guò)程中的一些底層思考。

以下為演講實(shí)錄，經(jīng)編輯：

大家好，今天我分享的主題叫從單向輸出到萬(wàn)人互動(dòng)：愛(ài)學(xué)的AI落地實(shí)踐。

首先給大家介紹一下公司的情況，與愛(ài)為舞是一個(gè)剛成立兩年多的新公司。從公司成立第一天開(kāi)始，就有很多朋友去問(wèn)我們?yōu)槭裁唇信c愛(ài)為舞。這里最主要有兩層含義：

第一，教育的本質(zhì)是愛(ài)，而公司在剛成立的最早期，定下的價(jià)值觀，就是愛(ài)自己，愛(ài)伙伴，愛(ài)世界。

第二，愛(ài)是AI的諧音，我們希望AI能夠協(xié)助教育，同時(shí)也希望我們是一個(gè)人文跟科技結(jié)合的公司。公司在2023年5月份成立，現(xiàn)在已經(jīng)在北京和上海有研發(fā)中心，我們希望通過(guò)AI技術(shù)探索出一些教育的新范式，這就是我們公司成立的背景。

我們成立的初心是希望人人都有一個(gè)適合自己的AI老師。這個(gè)AI老師能夠去了解每一個(gè)學(xué)生的興趣，根據(jù)每一個(gè)學(xué)生的優(yōu)點(diǎn)和不足因材施教，可以24小時(shí)在線、即時(shí)響應(yīng)。此外，我們希望AI老師能夠讓千家萬(wàn)戶更多孩子用到，他的成本比現(xiàn)在一對(duì)一的成本降低一個(gè)數(shù)量級(jí)甚至更多。最后我們希望這個(gè)老師不僅傳授知識(shí)，更重要的是全方位的幫助學(xué)生，做到終身陪伴。這就是我們創(chuàng)業(yè)的初心。

這個(gè)初心在我們創(chuàng)業(yè)第一天就建立了，過(guò)去的兩年多時(shí)間，我們一直在為這個(gè)初心努力。接下來(lái)給大家介紹一下，與愛(ài)為舞所推出的產(chǎn)品。

如何創(chuàng)造一個(gè)好的AI老師

首先我們來(lái)思考一下，一個(gè)好老師，需要哪些能力：

第一，好老師首先需要有專業(yè)的教學(xué)能力。他能夠掌握名師講法，把知識(shí)點(diǎn)清晰的講出來(lái)，同時(shí)可以針對(duì)學(xué)生的問(wèn)題做出合理回復(fù)，并實(shí)現(xiàn)個(gè)性化教學(xué)，針對(duì)不同的學(xué)生有不同的講解方法。因此我們做了自己的大模型。

第二，好老師需要有非常親切的、有真人感的形象。因此，我們組建了數(shù)字人團(tuán)隊(duì)，研發(fā)實(shí)時(shí)交互的數(shù)字人，可以精準(zhǔn)復(fù)刻名師形象，做到低延時(shí)互動(dòng)。

第三，好老師需要有表現(xiàn)力的聲音。他能夠識(shí)別學(xué)生的說(shuō)話，并指導(dǎo)學(xué)生成長(zhǎng)，我們也做了語(yǔ)音識(shí)別模型和語(yǔ)音合成模型。

第四，我們希望產(chǎn)品可以走進(jìn)千家萬(wàn)戶。因此在AI工程上做了大量?jī)?yōu)化，可以支持幾萬(wàn)人同時(shí)在線并發(fā)，做到低延時(shí)。

接下來(lái)給大家看一個(gè)真實(shí)的初中課程的場(chǎng)景。

簡(jiǎn)單總結(jié)一下，這個(gè)場(chǎng)景有四個(gè)特點(diǎn)，第一，有專業(yè)的名師講法，不能照本宣科講題目，而是有豐富的講課經(jīng)驗(yàn)和技巧；第二，可以在關(guān)鍵點(diǎn)上和學(xué)生互動(dòng)，引導(dǎo)學(xué)生問(wèn)出關(guān)鍵問(wèn)題，檢測(cè)到學(xué)生是不是回答對(duì)關(guān)鍵問(wèn)題，學(xué)生自己答對(duì)才有效果；第三，要能夠接住學(xué)生各種各樣個(gè)性化問(wèn)題，并能做好承接；第四，老師無(wú)論從形象到聲音，到說(shuō)話的口頭禪，都是比較像真人的。

為什么我們要做這么一個(gè)AI教學(xué)產(chǎn)品，為什么要這么設(shè)計(jì)互動(dòng)？最主要思考是我們認(rèn)為，在教學(xué)場(chǎng)景中，高質(zhì)量的一對(duì)一互動(dòng)，是能夠很好的拉回學(xué)生的注意力，只有拉回學(xué)生注意力，完成互動(dòng)，才可以讓學(xué)生得到學(xué)習(xí)效果的提升。

我們可以看到這幾張圖中，傳統(tǒng)的在線大班課程里，老師和學(xué)生的互動(dòng)是比較少的。而在我們場(chǎng)景中，一個(gè)小時(shí)老師會(huì)和學(xué)生有40多次互動(dòng)，過(guò)程中老師會(huì)知道學(xué)生關(guān)鍵點(diǎn)掌握沒(méi)有，同時(shí)也通過(guò)一步一步引導(dǎo)，讓學(xué)生把正確答案說(shuō)出來(lái)。這是提升我們教學(xué)效果非常關(guān)鍵的一點(diǎn)。

從數(shù)據(jù)中可以看到，當(dāng)老師第一次問(wèn)學(xué)生問(wèn)題的時(shí)候，有59%的學(xué)生可以答對(duì)，當(dāng)他一步一步引導(dǎo)，跟學(xué)生多輪交流后，最終可以達(dá)到83%的準(zhǔn)確率。這24%的準(zhǔn)確率的提升，就是AI一對(duì)一的互動(dòng)帶來(lái)的。除了準(zhǔn)確率，我們的有效聽(tīng)課率也得到了相應(yīng)提升。

為了實(shí)現(xiàn)AI老師，我們?cè)诩夹g(shù)上出了非常多的工作，也有一些突破。首先，為了讓AI老師有很好的教學(xué)效果，我們自研了講課Agent，它可以讓AI老師完整的引導(dǎo)學(xué)生完成一節(jié)課的復(fù)雜講解。無(wú)論學(xué)生順著你回答，還是不順著你回答，都能夠保證一兩個(gè)小時(shí)課程完整講下來(lái)，這是非常關(guān)鍵的。我們還實(shí)現(xiàn)了多個(gè)維度個(gè)性化，包括內(nèi)容、交互方式和講法的個(gè)性化，最終，希望每個(gè)學(xué)生都有不一樣的體驗(yàn)。

除了在算法上的優(yōu)化，還有一個(gè)非常重要的工作，就是在AI工程上，公司投入非常多。我們未來(lái)需要給幾萬(wàn)、幾十萬(wàn)甚至更多人提供服務(wù)，每個(gè)人都是面對(duì)一個(gè)獨(dú)立的AI老師，這個(gè)和大班課場(chǎng)景不一樣，每一個(gè)人要實(shí)時(shí)跟AI老師做語(yǔ)音、視頻、和大模型的互動(dòng)，如果延時(shí)、成本不做優(yōu)化是不可接受的。我們?cè)谶^(guò)去半年中，把單位學(xué)生的成本下降了一個(gè)數(shù)量級(jí)，也通過(guò)多個(gè)手段的端到端優(yōu)化，大幅降低了學(xué)生延時(shí)。

自研數(shù)字人技術(shù)

有了大模型，AI老師就有了智慧的大腦，接下來(lái)我們希望AI老師能夠有一個(gè)親切的形象，因此我們?cè)跀?shù)字人技術(shù)上投入非常多。為什么我們需要在數(shù)字人場(chǎng)景做很多自研模型？

因?yàn)樵诮逃龍?chǎng)景中，對(duì)數(shù)字人是有非常高的要求，最主要有兩點(diǎn)：第一，我們要做實(shí)時(shí)互動(dòng)的數(shù)字人。數(shù)字人的技術(shù)在做實(shí)時(shí)互動(dòng)和離線生產(chǎn)視頻兩個(gè)場(chǎng)景的挑戰(zhàn)是不一樣的，即使是在實(shí)時(shí)互動(dòng)里面，教育場(chǎng)景對(duì)實(shí)時(shí)性也要求非常高。例如我們?cè)诳匆恍┲辈サ臄?shù)字人，晚幾秒鐘回復(fù)也沒(méi)有什么，但是教育場(chǎng)景數(shù)字人必須秒級(jí)回復(fù)，如果數(shù)字人不及時(shí)回復(fù)，體驗(yàn)是非常差的。第二，教學(xué)場(chǎng)景下對(duì)老師的口型、面部、肢體動(dòng)作的一致性要求非常高。一旦沒(méi)有做好一致性，對(duì)學(xué)生體驗(yàn)就有很大影響。因此，我們?cè)谝韵聨讉€(gè)維度進(jìn)行了數(shù)字人研發(fā)。

第一是口型和面部同步，視頻中下面一排是真實(shí)美國(guó)新聞的播音視頻，上面是兩張照片，我們通過(guò)新聞的音頻驅(qū)動(dòng)照片，使之實(shí)時(shí)生成數(shù)字人。

有了口型和面部控制之后，我們還希望數(shù)字人有更好的表現(xiàn)力，可以加上肢體動(dòng)作。在部分場(chǎng)景，我們需要老師拍攝素材，第一批拍攝完之后，隔了幾個(gè)月或者半年，我們又希望能夠加入一些新的動(dòng)作，這個(gè)時(shí)候就會(huì)出現(xiàn)比較大的問(wèn)題。

第一是老師可能不太方便拍攝，第二是老師在幾個(gè)月后或者半年后，即使想拍攝，他的形象和狀態(tài)，跟幾個(gè)月前也不一樣，同一個(gè)人即使一周后和一周前的拍攝狀態(tài)都不一樣，這種情況就無(wú)法生成一模一樣的數(shù)字人。因此我們創(chuàng)新性的做了跨ID的動(dòng)作生成，用第三方來(lái)做動(dòng)作，通過(guò)骨骼重定向的方向來(lái)驅(qū)使原來(lái)的數(shù)字人，就可以給原來(lái)的數(shù)字人加一些新的動(dòng)作。有了肢體動(dòng)作之后，我們下一步希望做到360度沉浸的數(shù)字人，希望在未來(lái)課堂上的老師，真的能夠走出三分屏，走到學(xué)生面前，實(shí)現(xiàn)一個(gè)沉浸式的互動(dòng)。

今年我們也把一些核心的技術(shù)進(jìn)行了公開(kāi)發(fā)表，在全球AI頂會(huì)IJCAI上發(fā)表語(yǔ)音驅(qū)動(dòng)的數(shù)字人論文，同時(shí)在今年的9月1日跟央視合作，把左權(quán)將軍照片復(fù)原，并做出一個(gè)敬禮的動(dòng)作。

教育場(chǎng)景的語(yǔ)音技術(shù)

我們?cè)谡Z(yǔ)音技術(shù)上也做了一些深入的工作，大家可能會(huì)問(wèn)，語(yǔ)音的技術(shù)在過(guò)去一段時(shí)間已經(jīng)發(fā)展的非常好，業(yè)界也有非常多頂尖的語(yǔ)音提供商，什么我們要在語(yǔ)音上花費(fèi)這么大精力？因?yàn)樵诮虒W(xué)過(guò)程中語(yǔ)音跟業(yè)務(wù)場(chǎng)景是非常緊密結(jié)合的，具體有幾個(gè)原因：

第一，我們的學(xué)生有很多低齡的，隨時(shí)可能說(shuō)出兩三個(gè)字，這對(duì)語(yǔ)音識(shí)別的挑戰(zhàn)是非常大的。比如我現(xiàn)在在講話，我的講話是連貫的，有很多上下文，語(yǔ)音識(shí)別會(huì)很好理解。但是如果隨時(shí)隨地出來(lái)兩三個(gè)字，甚至有一些咬舌音等單音素的發(fā)音，對(duì)語(yǔ)音識(shí)別挑戰(zhàn)是非常大的。

第二，學(xué)生上課場(chǎng)景，可能有噪音，或者多人聲音的干擾。在剛開(kāi)始快速啟動(dòng)的時(shí)候，我們使用了第三方的語(yǔ)音識(shí)別技術(shù)，但隨著我們用戶量增大，我們發(fā)現(xiàn)語(yǔ)音識(shí)別準(zhǔn)確率有一些瓶頸，第三方技術(shù)有20%的錯(cuò)誤率。

這意味著什么呢？當(dāng)學(xué)生說(shuō)100個(gè)句子，有20句是錯(cuò)誤的，這是不可接受的。因此我們把多模態(tài)理解引入到ASR模型中，同時(shí)加入了強(qiáng)化學(xué)習(xí)，讓模型可以持續(xù)做自我進(jìn)化。最終我們?cè)谡鎸?shí)場(chǎng)景中，把語(yǔ)音識(shí)別的準(zhǔn)確率，從80%多提升到95%，這樣學(xué)生會(huì)得到比較好的體驗(yàn)。

我們?cè)谡Z(yǔ)音降噪和聲紋分離上也做了一些工作。真實(shí)的上課中，很多學(xué)生有背景噪音，在做識(shí)別的時(shí)候容易出現(xiàn)問(wèn)題，如果我們用開(kāi)源的降噪的技術(shù)，容易在降噪的同時(shí)把原來(lái)的聲音做變形或者掩蓋，特別是對(duì)孩子的聲音影響較大，略微的聲音變化就會(huì)造成識(shí)別錯(cuò)誤。所以我們自研了降噪的模型，可以做到在降噪的同時(shí)把童聲精準(zhǔn)還原。

除語(yǔ)音識(shí)別之外，我們?cè)谡Z(yǔ)音合成上，自研了基于多Token融合的TTS大模型，基于上萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)做重新預(yù)訓(xùn)練，而且除了建模語(yǔ)意相關(guān)的信息，還能夠建模非常細(xì)粒度聲學(xué)信息，包括老師的停頓、呼吸等，這樣可以去盡可能提升模型的表現(xiàn)力，同時(shí)，我們還實(shí)現(xiàn)了多情感表達(dá)，讓老師在不同場(chǎng)景下有不同的情感表現(xiàn)，實(shí)現(xiàn)教學(xué)的個(gè)性化。最后，我們也在算法和工程上也做了很多聯(lián)合的優(yōu)化。

為什么我們要在語(yǔ)音合成上做這么多細(xì)節(jié)，一個(gè)很重要的原因是，當(dāng)我們?nèi)巳ヂ?tīng)?zhēng)资搿⒁粌煞昼姷恼f(shuō)話時(shí)，可能聽(tīng)不出來(lái)聲音的好壞，或者都差不多。但是學(xué)生需要面對(duì)一個(gè)老師，他要聽(tīng)一兩個(gè)小時(shí)，未來(lái)要聽(tīng)?zhēng)资⑸习賯€(gè)小時(shí)，老師的表現(xiàn)力、抑揚(yáng)頓挫對(duì)講課非常關(guān)鍵，否則學(xué)生很容易感覺(jué)到疲憊。

以上就是我們?cè)诖竽Ｐ汀⒄Z(yǔ)音、數(shù)字人方面的一些進(jìn)展，有了這些工作之后，我們還想問(wèn)自己一個(gè)問(wèn)題，我們的AI老師，到底能不能給學(xué)生帶來(lái)真實(shí)的價(jià)值，能不能教會(huì)學(xué)生，我們也跟蹤了上課的學(xué)生，記錄了這些學(xué)生的變化。一開(kāi)始這些學(xué)生不會(huì)自然拼讀，經(jīng)過(guò)一段時(shí)間學(xué)習(xí)之后，他們可以直接拼讀一些高級(jí)的詞匯，有了很大的進(jìn)步。

這給了我們非常大的激勵(lì)，以及去持續(xù)優(yōu)化的動(dòng)力。未來(lái)希望我們的產(chǎn)品，能夠是一個(gè)終身陪伴的AI產(chǎn)品。在幼兒語(yǔ)音啟蒙、青少年思維提升、成年職場(chǎng)以及老年反詐上，希望能夠陪伴全年齡段的人終身學(xué)習(xí)進(jìn)步。

AI應(yīng)用創(chuàng)業(yè)思考

以上我們的產(chǎn)品跟技術(shù)的介紹。今天也跟大家分享一下我們公司在過(guò)去兩年多，在創(chuàng)業(yè)過(guò)程中有一些簡(jiǎn)單的沉淀和思考。

剛才我講了很多的技術(shù)，我自己負(fù)責(zé)技術(shù)研發(fā)。在技術(shù)上核心是兩個(gè)點(diǎn)：

第一，我們不要去在一些非常通用的技術(shù)上跟大廠比拼，或者跟大廠卷一些通用指標(biāo)。我們更應(yīng)該做好業(yè)務(wù)問(wèn)題的定義，要做與業(yè)務(wù)結(jié)合最好的技術(shù)。我們要持續(xù)的思考，在什么點(diǎn)上你的業(yè)務(wù)需要突破，在什么能力上，你必須要自研技術(shù)，在什么能力上你是可以用第三方的。

在大模型方面，有很多創(chuàng)業(yè)公司，有公司用開(kāi)源大模型可以用得很好，有的公司做自研大模型也很好。我們?nèi)绻鲎匝心Ｐ鸵肭宄槭裁匆觯芴嵘裁袋c(diǎn)，同時(shí)要做好全面測(cè)評(píng)，你都不能測(cè)評(píng)一個(gè)指標(biāo)，你也很難優(yōu)化它。

我們也建議重視AI工程，未來(lái)工程和算法需要聯(lián)合一塊優(yōu)化，我們有很多工作都是工程和算法聯(lián)合優(yōu)化的。

另外，我們可以讓產(chǎn)品盡早上線，這樣可以收集到用戶的真實(shí)反饋，通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式去優(yōu)化，并盡早開(kāi)始構(gòu)建數(shù)據(jù)飛輪。

第二，我們要堅(jiān)定的相信技術(shù)的發(fā)展，提前為技術(shù)的成熟做準(zhǔn)備。剛才主持人也說(shuō)，20年前有一本書(shū)《奇點(diǎn)臨近》講了一個(gè)觀點(diǎn)，就是技術(shù)的發(fā)展是指數(shù)級(jí)的，早期的技術(shù)發(fā)展非常緩慢，一旦突破奇點(diǎn)的時(shí)候，技術(shù)會(huì)快速發(fā)展。人類二十世紀(jì)一百年的技術(shù)成就超過(guò)了之前2000年所有技術(shù)的成就，而這些成就在二十一世紀(jì)只需要25年的時(shí)間。所以我們往往以為要很多年才會(huì)成熟的技術(shù)，會(huì)經(jīng)常大幅度超出我們預(yù)期更早的實(shí)現(xiàn)，我們要相信很多技術(shù)快于想象，并站在這個(gè)假設(shè)上，來(lái)做很多業(yè)務(wù)決策。

關(guān)于組織，我們的公司非常重視企業(yè)文化和人才密度，我自己也花了大量精力吸引行業(yè)里面頂尖的人才。一個(gè)公司的發(fā)展，當(dāng)你不確定他的業(yè)務(wù)怎么樣的時(shí)候，你只需要看一點(diǎn)，看這個(gè)公司是否有源源不斷的優(yōu)秀人才能夠流入，這一點(diǎn)非常關(guān)鍵，在過(guò)去幾個(gè)時(shí)代一直被驗(yàn)證。比如在PC互聯(lián)網(wǎng)時(shí)代， 2005-2013年全球很多優(yōu)秀人才去了百度，那個(gè)時(shí)候百度一度成為中國(guó)最大的互聯(lián)網(wǎng)公司；之后移動(dòng)互聯(lián)網(wǎng)時(shí)代，大量的優(yōu)秀人才去騰訊，去阿里，他們也一度成為中國(guó)最大的互聯(lián)網(wǎng)公司。之后大量人才去字節(jié)，它也成長(zhǎng)為最優(yōu)秀的公司之一。現(xiàn)在在美國(guó)硅谷，大量人才去OpenAI、Anthropic等全球最頂尖的AI公司，他們的發(fā)展也非常快。我們要用組織的確定性來(lái)對(duì)抗未來(lái)創(chuàng)業(yè)的不確定性，創(chuàng)業(yè)會(huì)面臨很多困難，這個(gè)時(shí)候有一個(gè)優(yōu)秀的組織，可以保證在很多事情上做得更好。

同時(shí)，我們做事也要首先考慮AI能不能做，把硅基生命當(dāng)成組織的必要成員，把人機(jī)協(xié)同作為工作的基本范式，很多事情需要AI和人一塊來(lái)做。我們需要組織里面的每個(gè)人都要能夠站在未來(lái)看現(xiàn)在，否則的話，不換腦子就換人。

最后，我覺(jué)得這一屆GET大會(huì)有非常好的主題:教育有AI，這也非常契合的是我們公司的使命，愛(ài)與AI幫助每個(gè)人成為更好的自己。我們希望通過(guò)大模型技術(shù)，用一個(gè)智慧的大腦來(lái)實(shí)現(xiàn)因材施教；通過(guò)數(shù)字人技術(shù)，用一個(gè)親切的指導(dǎo)提升學(xué)生的自信；通過(guò)語(yǔ)音的技術(shù)，用一個(gè)溫暖的聲音激勵(lì)學(xué)生成長(zhǎng)；通過(guò)工程的技術(shù)，用一套的堅(jiān)固系統(tǒng)為學(xué)生保駕護(hù)航。

我們的產(chǎn)品過(guò)去幾個(gè)月上線以來(lái)，收到了大家很多的反饋、建議以及批評(píng)，在這里非常感謝大家，我們會(huì)不高估短期收益，不低估長(zhǎng)期積累，繼續(xù)樂(lè)觀而堅(jiān)定走下去，也希望和大家一塊加油，謝謝大家！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.