![]()
與愛(ài)為舞聯(lián)合創(chuàng)始人王琳 在GET2025教育科技大會(huì)上演講
11月17日至18日,芥末堆在北京舉辦以“教育有AI,學(xué)習(xí)無(wú)界”為主題的GET2025教育科技大會(huì)。與愛(ài)為舞聯(lián)合創(chuàng)始人王琳就《從單向輸出,到萬(wàn)人互動(dòng)—“愛(ài)學(xué)”的AI落地實(shí)踐》進(jìn)行了主題分享。這是與愛(ài)為舞成立兩年多以來(lái),第一次在GET大會(huì)上正式亮相,因此這次分享也吸引了業(yè)內(nèi)很多從業(yè)者和媒體的關(guān)注。王琳通過(guò)拆解一個(gè)好的AI老師所需要的必要條件,對(duì)與愛(ài)為舞的產(chǎn)品以及大模型、數(shù)字人、語(yǔ)音等技術(shù)進(jìn)展做了介紹,同時(shí)也分享了在AI應(yīng)用的創(chuàng)業(yè)過(guò)程中的一些底層思考。
以下為演講實(shí)錄,經(jīng)編輯:
大家好,今天我分享的主題叫從單向輸出到萬(wàn)人互動(dòng):愛(ài)學(xué)的AI落地實(shí)踐。
首先給大家介紹一下公司的情況,與愛(ài)為舞是一個(gè)剛成立兩年多的新公司。從公司成立第一天開(kāi)始,就有很多朋友去問(wèn)我們?yōu)槭裁唇信c愛(ài)為舞。這里最主要有兩層含義:
第一,教育的本質(zhì)是愛(ài),而公司在剛成立的最早期,定下的價(jià)值觀,就是愛(ài)自己,愛(ài)伙伴,愛(ài)世界。
第二,愛(ài)是AI的諧音,我們希望AI能夠協(xié)助教育,同時(shí)也希望我們是一個(gè)人文跟科技結(jié)合的公司。公司在2023年5月份成立,現(xiàn)在已經(jīng)在北京和上海有研發(fā)中心,我們希望通過(guò)AI技術(shù)探索出一些教育的新范式,這就是我們公司成立的背景。
![]()
我們成立的初心是希望人人都有一個(gè)適合自己的AI老師。這個(gè)AI老師能夠去了解每一個(gè)學(xué)生的興趣,根據(jù)每一個(gè)學(xué)生的優(yōu)點(diǎn)和不足因材施教,可以24小時(shí)在線、即時(shí)響應(yīng)。此外,我們希望AI老師能夠讓千家萬(wàn)戶更多孩子用到,他的成本比現(xiàn)在一對(duì)一的成本降低一個(gè)數(shù)量級(jí)甚至更多。最后我們希望這個(gè)老師不僅傳授知識(shí),更重要的是全方位的幫助學(xué)生,做到終身陪伴。這就是我們創(chuàng)業(yè)的初心。
![]()
這個(gè)初心在我們創(chuàng)業(yè)第一天就建立了,過(guò)去的兩年多時(shí)間,我們一直在為這個(gè)初心努力。接下來(lái)給大家介紹一下,與愛(ài)為舞所推出的產(chǎn)品。
如何創(chuàng)造一個(gè)好的AI老師
首先我們來(lái)思考一下,一個(gè)好老師,需要哪些能力:
![]()
第一,好老師首先需要有專業(yè)的教學(xué)能力。他能夠掌握名師講法,把知識(shí)點(diǎn)清晰的講出來(lái),同時(shí)可以針對(duì)學(xué)生的問(wèn)題做出合理回復(fù),并實(shí)現(xiàn)個(gè)性化教學(xué),針對(duì)不同的學(xué)生有不同的講解方法。因此我們做了自己的大模型。
第二,好老師需要有非常親切的、有真人感的形象。因此,我們組建了數(shù)字人團(tuán)隊(duì),研發(fā)實(shí)時(shí)交互的數(shù)字人,可以精準(zhǔn)復(fù)刻名師形象,做到低延時(shí)互動(dòng)。
第三,好老師需要有表現(xiàn)力的聲音。他能夠識(shí)別學(xué)生的說(shuō)話,并指導(dǎo)學(xué)生成長(zhǎng),我們也做了語(yǔ)音識(shí)別模型和語(yǔ)音合成模型。
第四,我們希望產(chǎn)品可以走進(jìn)千家萬(wàn)戶。因此在AI工程上做了大量?jī)?yōu)化,可以支持幾萬(wàn)人同時(shí)在線并發(fā),做到低延時(shí)。
接下來(lái)給大家看一個(gè)真實(shí)的初中課程的場(chǎng)景。
![]()
簡(jiǎn)單總結(jié)一下,這個(gè)場(chǎng)景有四個(gè)特點(diǎn),第一,有專業(yè)的名師講法,不能照本宣科講題目,而是有豐富的講課經(jīng)驗(yàn)和技巧;第二,可以在關(guān)鍵點(diǎn)上和學(xué)生互動(dòng),引導(dǎo)學(xué)生問(wèn)出關(guān)鍵問(wèn)題,檢測(cè)到學(xué)生是不是回答對(duì)關(guān)鍵問(wèn)題,學(xué)生自己答對(duì)才有效果;第三,要能夠接住學(xué)生各種各樣個(gè)性化問(wèn)題,并能做好承接;第四,老師無(wú)論從形象到聲音,到說(shuō)話的口頭禪,都是比較像真人的。
為什么我們要做這么一個(gè)AI教學(xué)產(chǎn)品,為什么要這么設(shè)計(jì)互動(dòng)?最主要思考是我們認(rèn)為,在教學(xué)場(chǎng)景中,高質(zhì)量的一對(duì)一互動(dòng),是能夠很好的拉回學(xué)生的注意力,只有拉回學(xué)生注意力,完成互動(dòng),才可以讓學(xué)生得到學(xué)習(xí)效果的提升。
![]()
我們可以看到這幾張圖中,傳統(tǒng)的在線大班課程里,老師和學(xué)生的互動(dòng)是比較少的。而在我們場(chǎng)景中,一個(gè)小時(shí)老師會(huì)和學(xué)生有40多次互動(dòng),過(guò)程中老師會(huì)知道學(xué)生關(guān)鍵點(diǎn)掌握沒(méi)有,同時(shí)也通過(guò)一步一步引導(dǎo),讓學(xué)生把正確答案說(shuō)出來(lái)。這是提升我們教學(xué)效果非常關(guān)鍵的一點(diǎn)。
從數(shù)據(jù)中可以看到,當(dāng)老師第一次問(wèn)學(xué)生問(wèn)題的時(shí)候,有59%的學(xué)生可以答對(duì),當(dāng)他一步一步引導(dǎo),跟學(xué)生多輪交流后,最終可以達(dá)到83%的準(zhǔn)確率。這24%的準(zhǔn)確率的提升,就是AI一對(duì)一的互動(dòng)帶來(lái)的。除了準(zhǔn)確率,我們的有效聽(tīng)課率也得到了相應(yīng)提升。
為了實(shí)現(xiàn)AI老師,我們?cè)诩夹g(shù)上出了非常多的工作,也有一些突破。首先,為了讓AI老師有很好的教學(xué)效果,我們自研了講課Agent,它可以讓AI老師完整的引導(dǎo)學(xué)生完成一節(jié)課的復(fù)雜講解。無(wú)論學(xué)生順著你回答,還是不順著你回答,都能夠保證一兩個(gè)小時(shí)課程完整講下來(lái),這是非常關(guān)鍵的。我們還實(shí)現(xiàn)了多個(gè)維度個(gè)性化,包括內(nèi)容、交互方式和講法的個(gè)性化,最終,希望每個(gè)學(xué)生都有不一樣的體驗(yàn)。
除了在算法上的優(yōu)化,還有一個(gè)非常重要的工作,就是在AI工程上,公司投入非常多。我們未來(lái)需要給幾萬(wàn)、幾十萬(wàn)甚至更多人提供服務(wù),每個(gè)人都是面對(duì)一個(gè)獨(dú)立的AI老師,這個(gè)和大班課場(chǎng)景不一樣,每一個(gè)人要實(shí)時(shí)跟AI老師做語(yǔ)音、視頻、和大模型的互動(dòng),如果延時(shí)、成本不做優(yōu)化是不可接受的。我們?cè)谶^(guò)去半年中,把單位學(xué)生的成本下降了一個(gè)數(shù)量級(jí),也通過(guò)多個(gè)手段的端到端優(yōu)化,大幅降低了學(xué)生延時(shí)。
自研數(shù)字人技術(shù)
有了大模型,AI老師就有了智慧的大腦,接下來(lái)我們希望AI老師能夠有一個(gè)親切的形象,因此我們?cè)跀?shù)字人技術(shù)上投入非常多。為什么我們需要在數(shù)字人場(chǎng)景做很多自研模型?
![]()
因?yàn)樵诮逃龍?chǎng)景中,對(duì)數(shù)字人是有非常高的要求,最主要有兩點(diǎn):第一,我們要做實(shí)時(shí)互動(dòng)的數(shù)字人。數(shù)字人的技術(shù)在做實(shí)時(shí)互動(dòng)和離線生產(chǎn)視頻兩個(gè)場(chǎng)景的挑戰(zhàn)是不一樣的,即使是在實(shí)時(shí)互動(dòng)里面,教育場(chǎng)景對(duì)實(shí)時(shí)性也要求非常高。例如我們?cè)诳匆恍┲辈サ臄?shù)字人,晚幾秒鐘回復(fù)也沒(méi)有什么,但是教育場(chǎng)景數(shù)字人必須秒級(jí)回復(fù),如果數(shù)字人不及時(shí)回復(fù),體驗(yàn)是非常差的。第二,教學(xué)場(chǎng)景下對(duì)老師的口型、面部、肢體動(dòng)作的一致性要求非常高。一旦沒(méi)有做好一致性,對(duì)學(xué)生體驗(yàn)就有很大影響。因此,我們?cè)谝韵聨讉€(gè)維度進(jìn)行了數(shù)字人研發(fā)。
第一是口型和面部同步,視頻中下面一排是真實(shí)美國(guó)新聞的播音視頻,上面是兩張照片,我們通過(guò)新聞的音頻驅(qū)動(dòng)照片,使之實(shí)時(shí)生成數(shù)字人。
有了口型和面部控制之后,我們還希望數(shù)字人有更好的表現(xiàn)力,可以加上肢體動(dòng)作。在部分場(chǎng)景,我們需要老師拍攝素材,第一批拍攝完之后,隔了幾個(gè)月或者半年,我們又希望能夠加入一些新的動(dòng)作,這個(gè)時(shí)候就會(huì)出現(xiàn)比較大的問(wèn)題。
第一是老師可能不太方便拍攝,第二是老師在幾個(gè)月后或者半年后,即使想拍攝,他的形象和狀態(tài),跟幾個(gè)月前也不一樣,同一個(gè)人即使一周后和一周前的拍攝狀態(tài)都不一樣,這種情況就無(wú)法生成一模一樣的數(shù)字人。因此我們創(chuàng)新性的做了跨ID的動(dòng)作生成,用第三方來(lái)做動(dòng)作,通過(guò)骨骼重定向的方向來(lái)驅(qū)使原來(lái)的數(shù)字人,就可以給原來(lái)的數(shù)字人加一些新的動(dòng)作。有了肢體動(dòng)作之后,我們下一步希望做到360度沉浸的數(shù)字人,希望在未來(lái)課堂上的老師,真的能夠走出三分屏,走到學(xué)生面前,實(shí)現(xiàn)一個(gè)沉浸式的互動(dòng)。
![]()
今年我們也把一些核心的技術(shù)進(jìn)行了公開(kāi)發(fā)表,在全球AI頂會(huì)IJCAI上發(fā)表語(yǔ)音驅(qū)動(dòng)的數(shù)字人論文,同時(shí)在今年的9月1日跟央視合作,把左權(quán)將軍照片復(fù)原,并做出一個(gè)敬禮的動(dòng)作。
教育場(chǎng)景的語(yǔ)音技術(shù)
我們?cè)谡Z(yǔ)音技術(shù)上也做了一些深入的工作,大家可能會(huì)問(wèn),語(yǔ)音的技術(shù)在過(guò)去一段時(shí)間已經(jīng)發(fā)展的非常好,業(yè)界也有非常多頂尖的語(yǔ)音提供商,什么我們要在語(yǔ)音上花費(fèi)這么大精力?因?yàn)樵诮虒W(xué)過(guò)程中語(yǔ)音跟業(yè)務(wù)場(chǎng)景是非常緊密結(jié)合的,具體有幾個(gè)原因:
第一,我們的學(xué)生有很多低齡的,隨時(shí)可能說(shuō)出兩三個(gè)字,這對(duì)語(yǔ)音識(shí)別的挑戰(zhàn)是非常大的。比如我現(xiàn)在在講話,我的講話是連貫的,有很多上下文,語(yǔ)音識(shí)別會(huì)很好理解。但是如果隨時(shí)隨地出來(lái)兩三個(gè)字,甚至有一些咬舌音等單音素的發(fā)音,對(duì)語(yǔ)音識(shí)別挑戰(zhàn)是非常大的。
第二,學(xué)生上課場(chǎng)景,可能有噪音,或者多人聲音的干擾。在剛開(kāi)始快速啟動(dòng)的時(shí)候,我們使用了第三方的語(yǔ)音識(shí)別技術(shù),但隨著我們用戶量增大,我們發(fā)現(xiàn)語(yǔ)音識(shí)別準(zhǔn)確率有一些瓶頸,第三方技術(shù)有20%的錯(cuò)誤率。
這意味著什么呢?當(dāng)學(xué)生說(shuō)100個(gè)句子,有20句是錯(cuò)誤的,這是不可接受的。因此我們把多模態(tài)理解引入到ASR模型中,同時(shí)加入了強(qiáng)化學(xué)習(xí),讓模型可以持續(xù)做自我進(jìn)化。最終我們?cè)谡鎸?shí)場(chǎng)景中,把語(yǔ)音識(shí)別的準(zhǔn)確率,從80%多提升到95%,這樣學(xué)生會(huì)得到比較好的體驗(yàn)。
![]()
我們?cè)谡Z(yǔ)音降噪和聲紋分離上也做了一些工作。真實(shí)的上課中,很多學(xué)生有背景噪音,在做識(shí)別的時(shí)候容易出現(xiàn)問(wèn)題,如果我們用開(kāi)源的降噪的技術(shù),容易在降噪的同時(shí)把原來(lái)的聲音做變形或者掩蓋,特別是對(duì)孩子的聲音影響較大,略微的聲音變化就會(huì)造成識(shí)別錯(cuò)誤。所以我們自研了降噪的模型,可以做到在降噪的同時(shí)把童聲精準(zhǔn)還原。
除語(yǔ)音識(shí)別之外,我們?cè)谡Z(yǔ)音合成上,自研了基于多Token融合的TTS大模型,基于上萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)做重新預(yù)訓(xùn)練,而且除了建模語(yǔ)意相關(guān)的信息,還能夠建模非常細(xì)粒度聲學(xué)信息,包括老師的停頓、呼吸等,這樣可以去盡可能提升模型的表現(xiàn)力,同時(shí),我們還實(shí)現(xiàn)了多情感表達(dá),讓老師在不同場(chǎng)景下有不同的情感表現(xiàn),實(shí)現(xiàn)教學(xué)的個(gè)性化。最后,我們也在算法和工程上也做了很多聯(lián)合的優(yōu)化。
![]()
為什么我們要在語(yǔ)音合成上做這么多細(xì)節(jié),一個(gè)很重要的原因是,當(dāng)我們?nèi)巳ヂ?tīng)?zhēng)资搿⒁粌煞昼姷恼f(shuō)話時(shí),可能聽(tīng)不出來(lái)聲音的好壞,或者都差不多。但是學(xué)生需要面對(duì)一個(gè)老師,他要聽(tīng)一兩個(gè)小時(shí),未來(lái)要聽(tīng)?zhēng)资⑸习賯€(gè)小時(shí),老師的表現(xiàn)力、抑揚(yáng)頓挫對(duì)講課非常關(guān)鍵,否則學(xué)生很容易感覺(jué)到疲憊。
以上就是我們?cè)诖竽P汀⒄Z(yǔ)音、數(shù)字人方面的一些進(jìn)展,有了這些工作之后,我們還想問(wèn)自己一個(gè)問(wèn)題,我們的AI老師,到底能不能給學(xué)生帶來(lái)真實(shí)的價(jià)值,能不能教會(huì)學(xué)生,我們也跟蹤了上課的學(xué)生,記錄了這些學(xué)生的變化。一開(kāi)始這些學(xué)生不會(huì)自然拼讀,經(jīng)過(guò)一段時(shí)間學(xué)習(xí)之后,他們可以直接拼讀一些高級(jí)的詞匯,有了很大的進(jìn)步。
這給了我們非常大的激勵(lì),以及去持續(xù)優(yōu)化的動(dòng)力。未來(lái)希望我們的產(chǎn)品,能夠是一個(gè)終身陪伴的AI產(chǎn)品。在幼兒語(yǔ)音啟蒙、青少年思維提升、成年職場(chǎng)以及老年反詐上,希望能夠陪伴全年齡段的人終身學(xué)習(xí)進(jìn)步。
AI應(yīng)用創(chuàng)業(yè)思考
以上我們的產(chǎn)品跟技術(shù)的介紹。今天也跟大家分享一下我們公司在過(guò)去兩年多,在創(chuàng)業(yè)過(guò)程中有一些簡(jiǎn)單的沉淀和思考。
![]()
剛才我講了很多的技術(shù),我自己負(fù)責(zé)技術(shù)研發(fā)。在技術(shù)上核心是兩個(gè)點(diǎn):
第一,我們不要去在一些非常通用的技術(shù)上跟大廠比拼,或者跟大廠卷一些通用指標(biāo)。我們更應(yīng)該做好業(yè)務(wù)問(wèn)題的定義,要做與業(yè)務(wù)結(jié)合最好的技術(shù)。我們要持續(xù)的思考,在什么點(diǎn)上你的業(yè)務(wù)需要突破,在什么能力上,你必須要自研技術(shù),在什么能力上你是可以用第三方的。
在大模型方面,有很多創(chuàng)業(yè)公司,有公司用開(kāi)源大模型可以用得很好,有的公司做自研大模型也很好。我們?nèi)绻鲎匝心P鸵肭宄槭裁匆觯芴嵘裁袋c(diǎn),同時(shí)要做好全面測(cè)評(píng),你都不能測(cè)評(píng)一個(gè)指標(biāo),你也很難優(yōu)化它。
我們也建議重視AI工程,未來(lái)工程和算法需要聯(lián)合一塊優(yōu)化,我們有很多工作都是工程和算法聯(lián)合優(yōu)化的。
另外,我們可以讓產(chǎn)品盡早上線,這樣可以收集到用戶的真實(shí)反饋,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式去優(yōu)化,并盡早開(kāi)始構(gòu)建數(shù)據(jù)飛輪。
第二,我們要堅(jiān)定的相信技術(shù)的發(fā)展,提前為技術(shù)的成熟做準(zhǔn)備。剛才主持人也說(shuō),20年前有一本書(shū)《奇點(diǎn)臨近》講了一個(gè)觀點(diǎn),就是技術(shù)的發(fā)展是指數(shù)級(jí)的,早期的技術(shù)發(fā)展非常緩慢,一旦突破奇點(diǎn)的時(shí)候,技術(shù)會(huì)快速發(fā)展。人類二十世紀(jì)一百年的技術(shù)成就超過(guò)了之前2000年所有技術(shù)的成就,而這些成就在二十一世紀(jì)只需要25年的時(shí)間。所以我們往往以為要很多年才會(huì)成熟的技術(shù),會(huì)經(jīng)常大幅度超出我們預(yù)期更早的實(shí)現(xiàn),我們要相信很多技術(shù)快于想象,并站在這個(gè)假設(shè)上,來(lái)做很多業(yè)務(wù)決策。
![]()
關(guān)于組織,我們的公司非常重視企業(yè)文化和人才密度,我自己也花了大量精力吸引行業(yè)里面頂尖的人才。一個(gè)公司的發(fā)展,當(dāng)你不確定他的業(yè)務(wù)怎么樣的時(shí)候,你只需要看一點(diǎn),看這個(gè)公司是否有源源不斷的優(yōu)秀人才能夠流入,這一點(diǎn)非常關(guān)鍵,在過(guò)去幾個(gè)時(shí)代一直被驗(yàn)證。比如在PC互聯(lián)網(wǎng)時(shí)代, 2005-2013年全球很多優(yōu)秀人才去了百度,那個(gè)時(shí)候百度一度成為中國(guó)最大的互聯(lián)網(wǎng)公司;之后移動(dòng)互聯(lián)網(wǎng)時(shí)代,大量的優(yōu)秀人才去騰訊,去阿里,他們也一度成為中國(guó)最大的互聯(lián)網(wǎng)公司。之后大量人才去字節(jié),它也成長(zhǎng)為最優(yōu)秀的公司之一。現(xiàn)在在美國(guó)硅谷,大量人才去OpenAI、Anthropic等全球最頂尖的AI公司,他們的發(fā)展也非常快。我們要用組織的確定性來(lái)對(duì)抗未來(lái)創(chuàng)業(yè)的不確定性,創(chuàng)業(yè)會(huì)面臨很多困難,這個(gè)時(shí)候有一個(gè)優(yōu)秀的組織,可以保證在很多事情上做得更好。
同時(shí),我們做事也要首先考慮AI能不能做,把硅基生命當(dāng)成組織的必要成員,把人機(jī)協(xié)同作為工作的基本范式,很多事情需要AI和人一塊來(lái)做。我們需要組織里面的每個(gè)人都要能夠站在未來(lái)看現(xiàn)在,否則的話,不換腦子就換人。
![]()
最后,我覺(jué)得這一屆GET大會(huì)有非常好的主題:教育有AI,這也非常契合的是我們公司的使命,愛(ài)與AI幫助每個(gè)人成為更好的自己。我們希望通過(guò)大模型技術(shù),用一個(gè)智慧的大腦來(lái)實(shí)現(xiàn)因材施教;通過(guò)數(shù)字人技術(shù),用一個(gè)親切的指導(dǎo)提升學(xué)生的自信;通過(guò)語(yǔ)音的技術(shù),用一個(gè)溫暖的聲音激勵(lì)學(xué)生成長(zhǎng);通過(guò)工程的技術(shù),用一套的堅(jiān)固系統(tǒng)為學(xué)生保駕護(hù)航。
我們的產(chǎn)品過(guò)去幾個(gè)月上線以來(lái),收到了大家很多的反饋、建議以及批評(píng),在這里非常感謝大家,我們會(huì)不高估短期收益,不低估長(zhǎng)期積累,繼續(xù)樂(lè)觀而堅(jiān)定走下去,也希望和大家一塊加油,謝謝大家!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.