![]()
與愛為舞聯合創始人王琳 在GET2025教育科技大會上演講
11月17日至18日,芥末堆在北京舉辦以“教育有AI,學習無界”為主題的GET2025教育科技大會。與愛為舞聯合創始人王琳就《從單向輸出,到萬人互動—“愛學”的AI落地實踐》進行了主題分享。這是與愛為舞成立兩年多以來,第一次在GET大會上正式亮相,因此這次分享也吸引了業內很多從業者和媒體的關注。王琳通過拆解一個好的AI老師所需要的必要條件,對與愛為舞的產品以及大模型、數字人、語音等技術進展做了介紹,同時也分享了在AI應用的創業過程中的一些底層思考。
以下為演講實錄,經編輯:
大家好,今天我分享的主題叫從單向輸出到萬人互動:愛學的AI落地實踐。
首先給大家介紹一下公司的情況,與愛為舞是一個剛成立兩年多的新公司。從公司成立第一天開始,就有很多朋友去問我們為什么叫與愛為舞。這里最主要有兩層含義:
第一,教育的本質是愛,而公司在剛成立的最早期,定下的價值觀,就是愛自己,愛伙伴,愛世界。
第二,愛是AI的諧音,我們希望AI能夠協助教育,同時也希望我們是一個人文跟科技結合的公司。公司在2023年5月份成立,現在已經在北京和上海有研發中心,我們希望通過AI技術探索出一些教育的新范式,這就是我們公司成立的背景。
![]()
我們成立的初心是希望人人都有一個適合自己的AI老師。這個AI老師能夠去了解每一個學生的興趣,根據每一個學生的優點和不足因材施教,可以24小時在線、即時響應。此外,我們希望AI老師能夠讓千家萬戶更多孩子用到,他的成本比現在一對一的成本降低一個數量級甚至更多。最后我們希望這個老師不僅傳授知識,更重要的是全方位的幫助學生,做到終身陪伴。這就是我們創業的初心。
![]()
這個初心在我們創業第一天就建立了,過去的兩年多時間,我們一直在為這個初心努力。接下來給大家介紹一下,與愛為舞所推出的產品。
如何創造一個好的AI老師
首先我們來思考一下,一個好老師,需要哪些能力:
![]()
第一,好老師首先需要有專業的教學能力。他能夠掌握名師講法,把知識點清晰的講出來,同時可以針對學生的問題做出合理回復,并實現個性化教學,針對不同的學生有不同的講解方法。因此我們做了自己的大模型。
第二,好老師需要有非常親切的、有真人感的形象。因此,我們組建了數字人團隊,研發實時交互的數字人,可以精準復刻名師形象,做到低延時互動。
第三,好老師需要有表現力的聲音。他能夠識別學生的說話,并指導學生成長,我們也做了語音識別模型和語音合成模型。
第四,我們希望產品可以走進千家萬戶。因此在AI工程上做了大量優化,可以支持幾萬人同時在線并發,做到低延時。
接下來給大家看一個真實的初中課程的場景。
![]()
簡單總結一下,這個場景有四個特點,第一,有專業的名師講法,不能照本宣科講題目,而是有豐富的講課經驗和技巧;第二,可以在關鍵點上和學生互動,引導學生問出關鍵問題,檢測到學生是不是回答對關鍵問題,學生自己答對才有效果;第三,要能夠接住學生各種各樣個性化問題,并能做好承接;第四,老師無論從形象到聲音,到說話的口頭禪,都是比較像真人的。
為什么我們要做這么一個AI教學產品,為什么要這么設計互動?最主要思考是我們認為,在教學場景中,高質量的一對一互動,是能夠很好的拉回學生的注意力,只有拉回學生注意力,完成互動,才可以讓學生得到學習效果的提升。
![]()
我們可以看到這幾張圖中,傳統的在線大班課程里,老師和學生的互動是比較少的。而在我們場景中,一個小時老師會和學生有40多次互動,過程中老師會知道學生關鍵點掌握沒有,同時也通過一步一步引導,讓學生把正確答案說出來。這是提升我們教學效果非常關鍵的一點。
從數據中可以看到,當老師第一次問學生問題的時候,有59%的學生可以答對,當他一步一步引導,跟學生多輪交流后,最終可以達到83%的準確率。這24%的準確率的提升,就是AI一對一的互動帶來的。除了準確率,我們的有效聽課率也得到了相應提升。
為了實現AI老師,我們在技術上出了非常多的工作,也有一些突破。首先,為了讓AI老師有很好的教學效果,我們自研了講課Agent,它可以讓AI老師完整的引導學生完成一節課的復雜講解。無論學生順著你回答,還是不順著你回答,都能夠保證一兩個小時課程完整講下來,這是非常關鍵的。我們還實現了多個維度個性化,包括內容、交互方式和講法的個性化,最終,希望每個學生都有不一樣的體驗。
除了在算法上的優化,還有一個非常重要的工作,就是在AI工程上,公司投入非常多。我們未來需要給幾萬、幾十萬甚至更多人提供服務,每個人都是面對一個獨立的AI老師,這個和大班課場景不一樣,每一個人要實時跟AI老師做語音、視頻、和大模型的互動,如果延時、成本不做優化是不可接受的。我們在過去半年中,把單位學生的成本下降了一個數量級,也通過多個手段的端到端優化,大幅降低了學生延時。
自研數字人技術
有了大模型,AI老師就有了智慧的大腦,接下來我們希望AI老師能夠有一個親切的形象,因此我們在數字人技術上投入非常多。為什么我們需要在數字人場景做很多自研模型?
![]()
因為在教育場景中,對數字人是有非常高的要求,最主要有兩點:第一,我們要做實時互動的數字人。數字人的技術在做實時互動和離線生產視頻兩個場景的挑戰是不一樣的,即使是在實時互動里面,教育場景對實時性也要求非常高。例如我們在看一些直播的數字人,晚幾秒鐘回復也沒有什么,但是教育場景數字人必須秒級回復,如果數字人不及時回復,體驗是非常差的。第二,教學場景下對老師的口型、面部、肢體動作的一致性要求非常高。一旦沒有做好一致性,對學生體驗就有很大影響。因此,我們在以下幾個維度進行了數字人研發。
第一是口型和面部同步,視頻中下面一排是真實美國新聞的播音視頻,上面是兩張照片,我們通過新聞的音頻驅動照片,使之實時生成數字人。
有了口型和面部控制之后,我們還希望數字人有更好的表現力,可以加上肢體動作。在部分場景,我們需要老師拍攝素材,第一批拍攝完之后,隔了幾個月或者半年,我們又希望能夠加入一些新的動作,這個時候就會出現比較大的問題。
第一是老師可能不太方便拍攝,第二是老師在幾個月后或者半年后,即使想拍攝,他的形象和狀態,跟幾個月前也不一樣,同一個人即使一周后和一周前的拍攝狀態都不一樣,這種情況就無法生成一模一樣的數字人。因此我們創新性的做了跨ID的動作生成,用第三方來做動作,通過骨骼重定向的方向來驅使原來的數字人,就可以給原來的數字人加一些新的動作。有了肢體動作之后,我們下一步希望做到360度沉浸的數字人,希望在未來課堂上的老師,真的能夠走出三分屏,走到學生面前,實現一個沉浸式的互動。
![]()
今年我們也把一些核心的技術進行了公開發表,在全球AI頂會IJCAI上發表語音驅動的數字人論文,同時在今年的9月1日跟央視合作,把左權將軍照片復原,并做出一個敬禮的動作。
教育場景的語音技術
我們在語音技術上也做了一些深入的工作,大家可能會問,語音的技術在過去一段時間已經發展的非常好,業界也有非常多頂尖的語音提供商,什么我們要在語音上花費這么大精力?因為在教學過程中語音跟業務場景是非常緊密結合的,具體有幾個原因:
第一,我們的學生有很多低齡的,隨時可能說出兩三個字,這對語音識別的挑戰是非常大的。比如我現在在講話,我的講話是連貫的,有很多上下文,語音識別會很好理解。但是如果隨時隨地出來兩三個字,甚至有一些咬舌音等單音素的發音,對語音識別挑戰是非常大的。
第二,學生上課場景,可能有噪音,或者多人聲音的干擾。在剛開始快速啟動的時候,我們使用了第三方的語音識別技術,但隨著我們用戶量增大,我們發現語音識別準確率有一些瓶頸,第三方技術有20%的錯誤率。
這意味著什么呢?當學生說100個句子,有20句是錯誤的,這是不可接受的。因此我們把多模態理解引入到ASR模型中,同時加入了強化學習,讓模型可以持續做自我進化。最終我們在真實場景中,把語音識別的準確率,從80%多提升到95%,這樣學生會得到比較好的體驗。
![]()
我們在語音降噪和聲紋分離上也做了一些工作。真實的上課中,很多學生有背景噪音,在做識別的時候容易出現問題,如果我們用開源的降噪的技術,容易在降噪的同時把原來的聲音做變形或者掩蓋,特別是對孩子的聲音影響較大,略微的聲音變化就會造成識別錯誤。所以我們自研了降噪的模型,可以做到在降噪的同時把童聲精準還原。
除語音識別之外,我們在語音合成上,自研了基于多Token融合的TTS大模型,基于上萬小時的語音數據做重新預訓練,而且除了建模語意相關的信息,還能夠建模非常細粒度聲學信息,包括老師的停頓、呼吸等,這樣可以去盡可能提升模型的表現力,同時,我們還實現了多情感表達,讓老師在不同場景下有不同的情感表現,實現教學的個性化。最后,我們也在算法和工程上也做了很多聯合的優化。
![]()
為什么我們要在語音合成上做這么多細節,一個很重要的原因是,當我們人去聽幾十秒、一兩分鐘的說話時,可能聽不出來聲音的好壞,或者都差不多。但是學生需要面對一個老師,他要聽一兩個小時,未來要聽幾十、上百個小時,老師的表現力、抑揚頓挫對講課非常關鍵,否則學生很容易感覺到疲憊。
以上就是我們在大模型、語音、數字人方面的一些進展,有了這些工作之后,我們還想問自己一個問題,我們的AI老師,到底能不能給學生帶來真實的價值,能不能教會學生,我們也跟蹤了上課的學生,記錄了這些學生的變化。一開始這些學生不會自然拼讀,經過一段時間學習之后,他們可以直接拼讀一些高級的詞匯,有了很大的進步。
這給了我們非常大的激勵,以及去持續優化的動力。未來希望我們的產品,能夠是一個終身陪伴的AI產品。在幼兒語音啟蒙、青少年思維提升、成年職場以及老年反詐上,希望能夠陪伴全年齡段的人終身學習進步。
AI應用創業思考
以上我們的產品跟技術的介紹。今天也跟大家分享一下我們公司在過去兩年多,在創業過程中有一些簡單的沉淀和思考。
![]()
剛才我講了很多的技術,我自己負責技術研發。在技術上核心是兩個點:
第一,我們不要去在一些非常通用的技術上跟大廠比拼,或者跟大廠卷一些通用指標。我們更應該做好業務問題的定義,要做與業務結合最好的技術。我們要持續的思考,在什么點上你的業務需要突破,在什么能力上,你必須要自研技術,在什么能力上你是可以用第三方的。
在大模型方面,有很多創業公司,有公司用開源大模型可以用得很好,有的公司做自研大模型也很好。我們如果做自研模型要想清楚為什么要做,它能提升什么點,同時要做好全面測評,你都不能測評一個指標,你也很難優化它。
我們也建議重視AI工程,未來工程和算法需要聯合一塊優化,我們有很多工作都是工程和算法聯合優化的。
另外,我們可以讓產品盡早上線,這樣可以收集到用戶的真實反饋,通過數據驅動的方式去優化,并盡早開始構建數據飛輪。
第二,我們要堅定的相信技術的發展,提前為技術的成熟做準備。剛才主持人也說,20年前有一本書《奇點臨近》講了一個觀點,就是技術的發展是指數級的,早期的技術發展非常緩慢,一旦突破奇點的時候,技術會快速發展。人類二十世紀一百年的技術成就超過了之前2000年所有技術的成就,而這些成就在二十一世紀只需要25年的時間。所以我們往往以為要很多年才會成熟的技術,會經常大幅度超出我們預期更早的實現,我們要相信很多技術快于想象,并站在這個假設上,來做很多業務決策。
![]()
關于組織,我們的公司非常重視企業文化和人才密度,我自己也花了大量精力吸引行業里面頂尖的人才。一個公司的發展,當你不確定他的業務怎么樣的時候,你只需要看一點,看這個公司是否有源源不斷的優秀人才能夠流入,這一點非常關鍵,在過去幾個時代一直被驗證。比如在PC互聯網時代, 2005-2013年全球很多優秀人才去了百度,那個時候百度一度成為中國最大的互聯網公司;之后移動互聯網時代,大量的優秀人才去騰訊,去阿里,他們也一度成為中國最大的互聯網公司。之后大量人才去字節,它也成長為最優秀的公司之一。現在在美國硅谷,大量人才去OpenAI、Anthropic等全球最頂尖的AI公司,他們的發展也非常快。我們要用組織的確定性來對抗未來創業的不確定性,創業會面臨很多困難,這個時候有一個優秀的組織,可以保證在很多事情上做得更好。
同時,我們做事也要首先考慮AI能不能做,把硅基生命當成組織的必要成員,把人機協同作為工作的基本范式,很多事情需要AI和人一塊來做。我們需要組織里面的每個人都要能夠站在未來看現在,否則的話,不換腦子就換人。
![]()
最后,我覺得這一屆GET大會有非常好的主題:教育有AI,這也非常契合的是我們公司的使命,愛與AI幫助每個人成為更好的自己。我們希望通過大模型技術,用一個智慧的大腦來實現因材施教;通過數字人技術,用一個親切的指導提升學生的自信;通過語音的技術,用一個溫暖的聲音激勵學生成長;通過工程的技術,用一套的堅固系統為學生保駕護航。
我們的產品過去幾個月上線以來,收到了大家很多的反饋、建議以及批評,在這里非常感謝大家,我們會不高估短期收益,不低估長期積累,繼續樂觀而堅定走下去,也希望和大家一塊加油,謝謝大家!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.