![]()
![]()
51Talk技術副總裁兼AI研究院院長蔡林
出品|搜狐科技
作者|張 瑩
編輯|楊 錦
教師節前后,教育企業爭相向外界秀肌肉。“首個通過教師資格證考試的AI老師”沖上熱搜。51Talk也在教師節前夕發布全球首個超擬人AI外教“考拉AI”。
據了解,“考拉AI”能夠實時識別學生的專注度與情緒變化、精準定位知識薄弱點,并通過強互動方式營造輕松敢說的氛圍,激發主動表達的興趣。
發布會后,搜狐科技獨家對話51Talk技術副總裁兼AI研究院院長蔡林。
“AI+教育”不算新鮮的話題。單在語言教育上,國內的AI產品就已經層出不窮,比如高途推出吳彥祖AI口語陪練相關課程、VIPKID也推出了Mastar虛擬人等等。
不過在蔡林看來,真正的AI老師的比拼還沒有開始。
他指出,目前市面上的AI老師用到的技術仍是“TTS + ASR + LLM”三段式:語音轉文字,文本給到大模型,大模型又吐出來文本,文本再轉語音。蔡林用5G時代類比于我們所處的階段,而這一技術只能算是4G時代的技術。
他認為,5G時代應該是speech-to-speech(端到端語音)的技術,一定是“端到端”,中間零轉換,就像 OpenAI 的 GPT-realtime、Google 的 Gemini Live。
蔡林表示,只有當“realtime”類的技術大規模出現,且成本降低,AI語言培訓類產品才會到達更高的境界。這一時刻可能最晚在明年第二季度到來。
“我們最早做 AI 老師,是去年在海外跑體驗課,用的就是realtime的技術,一節課的成本是45美元,很夸張。”蔡林分享道,Open AI 的代理商、微軟都說,“不知道你們教育行業為什么都這么瘋狂?”“這個東西這么貴,為什么消耗那么多錢去測?”
他認為,這個問題的背后是大家還沒有意識到,下一代技術對語言類產品影響有多大。蔡林透露,51Talk也準備了“純 realtime”的考拉AI產品,目前考慮到成本還沒有放開。
在AI教育賽道,教育企業不僅面臨著教育行業內部的競爭,同時面臨著豆包等AI工具的競爭。
蔡林最近經常聽到一個問題——“我有豆包了,為什么還要買你的課?”
在蔡林看來,用豆包堅持學英語是一個偽命題。而對于教育產品而言,激發學生持續學習的動力最為關鍵,并且需要有人陪伴和提供服務,才能堅持下去。
此外,從用戶的角度來看,學習是一件嚴肅的事情,希望能看到效果。因此科學地規劃學生的學習路徑,培養他們的學習習慣非常重要。這跟單純使用豆包去學習完全不同。
“現在市面上很多純對話、沒有教材、沒有老師的語言學習課程,完課率都非常低。”
蔡林表示,“AI+教育”行業必須回歸教育的本質。盡管蔡林是“老程序員”,但他仍認為,這一行業并非純技術的比拼,而是比拼企業在行業里的認知和綜合運營能力。
![]()
關于多模態、幻覺、AI和人的關系:
等成本降到足夠低,多模態會成為教育產品必選項
搜狐科技:在做“考拉AI”的過程中,實時語音模型、視頻模型的成本是一大問題嗎?
蔡林:說實話,視頻的成本還是挺高的。但是很多視頻其實是一次性的,做完之后,就不需要再去做那么多復雜的東西了,而且視頻是預生成的。
搜狐科技:51Talk已經開始嘗試融合多模態數據,比如課堂表情識別,去判斷學生的學習狀態,這方面的成本呢?
蔡林:我覺得還行。現在的多模態識別并不是全程實時采集攝像頭,而是取巧地“抽幀”,隔幾秒抓一張圖,扔給模型去解讀。行業里基本都這么干,OpenAI也是,不斷截屏喂給模型,算下來成本可以接受。
搜狐科技:未來多模態能力會是教育企業的必選項還是加分項?
蔡林:等成本降到足夠低,多模態一定會變成必選項。純文本模型“看不見”人,通過抽幀圖像,模型就能“看見”用戶,產品邏輯完全換了一層。
舉個例子,智能體提前獲取你的位置信息,今天你們在朝陽,外面陽光好,它就先問“空氣很棒,心情怎么樣?”如果當地下雪,它會說“我看到你們那兒下雪了,開心嗎?”AI其實在模擬人,目的就是拉近孩子與AI的距離。
搜狐科技:大模型仍然存在幻覺問題,語言教育會不會也面臨幻覺問題?
蔡林:一定會。我們也在反復地去想怎么盡量減少幻覺。我們的課中做了多智能體的架構,有一個智能體來去判斷AI有沒有胡說八道,這是我們微調出來的小模型。
大模型如果在垂直任務上經過專門訓練,其實可以做得非常精確;但如果只依賴通用模型的基本能力,它的幻覺可能會非常嚴重。
搜狐科技:但是幻覺和想象力相輔相成,我們怎么去做平衡?
蔡林:我們現在其實做了一個取巧,在不同的場景里面給大家的開放程度不一樣。有些場景極其嚴謹,你不能亂聊;有的場景可以去開放一點。
搜狐科技:AI技術是否改變了對教師的需求數量和素質要求?AI是會替代部分教師,還是賦能教師,讓他們更專注于情感互動、高階思維培養等AI難以替代的領域?
蔡林:我認為AI帶來的改變不僅僅限于教師領域,而是關系到我們每個人。
前陣子出現了很多編程智能工具,比如Claude Code。一開始很多程序員特別焦慮,擔心是不是要被替代了。但我們內部討論之后,大家反而特別開心。因為這相當于把以前我們不愿意做的那些重復勞動,全都交給AI去干。
對教師來說也是一樣的。AI可以幫助教師擺脫重復性工作,從而更專注于提供人性中最溫暖的東西。越是在AI強大的時代,人的價值反而越凸顯。
搜狐科技:怎么平衡AI和人的參與度?
蔡林:我們現在是設計了真人的服務在里面,可以給學生提供一些情緒價值。真人教學目前還沒有加,考拉現在還是一個純粹的AI native的產品。
![]()
關于發展現狀、行業競爭:
最晚明年Q2,AI老師的比拼會真正開始
搜狐科技:目前教育企業都在推出AI相結合的產品,比如高途的吳彥祖AI口語陪練等等,現在英語教育產品是否會面臨同質化競爭?
蔡林:大家可能認為AI教育產品已經百花齊放,或者說大家都卷得差不多了。我反而認為真正的AI老師的比拼還沒開始。
因為現在所有的公司用到的技術仍是“TTS + ASR + LLM”三段式:語音轉文字,文本給到大模型,大模型又吐出來文本,文本再轉語音。如果說我們現在是5G時代,這一代技術可能還是一個4G時代的技術。5G 時代應該是speech-to-speech的技術,語音進、語音出,中間零轉換,就像 OpenAI 的 GPT-realtime、Google 的 Gemini Live。
我們現在要感知到這個學生的情緒,要去分析他的圖像,把他的聲音轉成文字,來判斷他情緒是不是飽滿。下一代的技術一定是“端到端”,只聽聲音就能判斷你是開心還是悲傷。
現在還沒有達到(真正的AI老師)臨界點。只有當“realtime”類的技術大規模出現、成本降低, AI 語言培訓類的產品才會真正到達更高的境界。現在看到的產品都不是最終形態。
搜狐科技:您覺得這個臨界點會在什么時候?
蔡林:可能會很快,我估計最晚明年Q2。
搜狐科技:到時候AI教育產品是不是會卷到另外一個程度?
蔡林:一定會。我們最早做 AI 老師,是去年在海外跑體驗課,直接跟真人老師做 AB 測試。當時我們用的就是realtime的技術,云進云出,一節課的成本是45美元,很夸張。
當時我們跟Open AI 的代理商、微軟去溝通,大家都說,不知道你們教育行業為什么都這么瘋狂?這個東西這么貴,為什么每天消耗那么多錢去測?
因為大家還沒意識到,下一代技術對語言類產品影響有多大。我們所有的努力都是試圖接近 realtime的形態去提供教學。我們還有一個“純 realtime”的版本,考慮到成本沒有放開,只要條件具備,我們隨時切換。
搜狐科技:不僅是教育企業,一些通用大模型同樣可以進行英語對話,比如豆包等,那我們的優勢在哪里?
蔡林:我有豆包了,為什么還要買你的課?這個問題很現實。但你真的能用豆包堅持學英語嗎?這可能是一個偽命題。當然我不是說豆包的體驗不好,我們背后也用了很多豆包的技術。
我們做過大量的調研,從用戶的角度來看,學習是一件嚴肅的事情;并且希望能看到效果。所以,如何科學地規劃孩子的學習路徑,培養他們的學習習慣,這才是關鍵。
我們現在設計的場景是,學生進入我們的平臺后,我們會為他們制定學習計劃,并且有真人老師進行督導。AI必須與真人的服務結合,而不是一個單純的工具就能學好。
我認為,“AI+教育”這個行業必須回歸教育的本質。
搜狐科技:在您看來,未來教育的競爭是技術的競爭、資源的競爭,還是生態的競爭?
蔡林:肯定是生態的競爭。雖然說我是一個很資深的老程序員,夢想說用純技術來去改變一個世界,但我認為單純的技術肯定是不夠的,未來的競爭一定是一個綜合的競爭。
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.