![]()
作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com
AI教育賽道向來火熱,但也是公認的“卷王”和資源密集型戰場。在這個背景下,一個僅有六人的硅谷學生創業團隊,卻悄然創下了一項紀錄。
他們的項目VideoTutor,一個“一句話生成AI視頻講解”的教育產品,在今年5月上線后,迅速獲得了幣安創始人趙長鵬(CZ)旗下的YZi Labs 領投,百度風投、錦秋基金、Amino Capital、BridgeOne Capital 以及多位知名投資人聯合參投的1100萬美元種子輪融資。
![]()
這不僅是近期AI教育領域的一筆大額融資,也是硅谷學生創業項目中規模最大的種子輪。
團隊的背后,是兩位極具故事性的創始人和CTO:一位是來自安徽小城、靠父母賣房支持留學、為創業夢想毅然輟學的大三學生Kai Zhao;另一位則是放棄谷歌高薪、“逃離大廠圍城”的工程師James Zhan。
5個月,6個人,千萬美元種子輪,他們要做什么?答案是一個專注于數學等理工科領域的AI“多鄰國”。
這個定位直指其核心戰略:用技術將昂貴的精英教育普惠化。 多鄰國顛覆了高價的語言學校,而VideoTutor則瞄準了動輒上百美元一小時的美國高考(SAT/AP)教培市場。
實現這一點的武器,并非簡單的模型“套殼”,而是其自研的“數學動畫引擎”——它能讓AI通過編程精準地“畫圖講題”,從而以更低成本生產個性化教學視頻,在商業上復刻多鄰國模式的可擴展性。
我們也與創始人Kai Zhao和CTO James Zhan聊了聊,試圖揭開這筆千萬美元融資背后的秘密。
以下是對話實錄:
從一張圖到一部講解視頻,VideoTutor如何做到精準“可視化”?
硅星人:我看了你們的產品,有一句介紹是,“一句話生成專屬視頻的教育Agent”,可以解釋一下嗎?Agent具體是指什么?
Kai Zhao:好的。Agent的部分主要負責“規劃教學內容”。我舉個例子,當用戶提問“求這個扇形中的陰影部分的面積”,我們的Agent會先調用基礎大模型,進行教學Planning,規劃好在這個視頻里要講哪些知識點,按什么順序講,生成對應的文字腳本。
然后,針對腳本中需要圖形輔助理解的部分,比如這個扇形和陰影,我們自研的“數學動畫引擎”就會被調用,渲染出對應的幾何圖形和動畫。
硅星人:用戶提問的方式呢?只能輸入文字嗎?如果用戶想上傳一張帶有復雜幾何圖形的作業圖片,讓模型識別和講解,可以實現嗎?
Kai Zhao:完全可以,我們支持用戶上傳圖片,然后基于圖片里的題目進行講解。
James Zhan:我來補充一下技術路線。如果你把一張包含復雜幾何圖形的題目圖片直接發給ChatGPT這樣的大語言模型,它很可能會生成錯誤的答案。你讓它重新畫一遍,它都會畫錯。這是因為現在大模型的多模態能力,對點、線、圓這些幾何關系的理解是不夠的。
所以我們是訓練了一個深度學習小模型,它可以專門解析用戶上傳的幾何圖形,然后輸出一段非常精確的、描述這個幾何圖形的文本。我們再把這段精確的文本交給大語言模型去理解,它就能準確地get到用戶的問題,不會造成混亂。
硅星人:我明白了,這是你們在“看懂”用戶輸入上做的工作,那生成視頻的精準度是怎么保證的?
James Zhan:這是我們的另一個優勢。我們的做法不是像Sora那樣用擴散模型去生成每個像素點,那種成本高、速度慢,且無法保證教學所需要的精確性。
我們的技術觀念是給大語言模型“筆和紙”,然后教它如何畫畫。市面上有一個開源的數學動畫引擎庫,可以用代碼來“畫”出動畫,最基本的思路就是讓大模型去寫這個庫的代碼,把動畫渲染出來,我們也專門請教了那個庫的作者。
硅星人:所以你們是用coding能力寫代碼,代碼生成的視頻,這和視頻生成模型的概念完全不一樣。現在各家模型coding的能力是卷得最快的,所以你們的視頻生成效果也會越來越好。
James Zhan:是的,可以這么理解。在這個過程中,我們也做了很多工作。
比如,原版庫上次更新是五六年前了,我們發現它是為“人”寫代碼設計的,因為大模型不懂這個庫,所以直接寫的話,效果就一塌糊涂。
我們又做了很多中間層,用算法計算元素位置、點線關系,并設計了一套新協議,去“教”大模型如何正確地為這個庫寫代碼;然后又因為原版庫不支持并行渲染,無論堆多少GPU,速度都很慢。最后我們基本重寫了,提取出對理科場景有用的部分,舍棄掉用不上的,讓它變得非常輕量,并且支持并行渲染。
這就是為什么我們的視頻生成速度很快,而且動畫效果非常精確。
硅星人:除了精準的動畫,視頻的文案腳本也很重要,能根據不同年級、不同知識點類型和用戶的水平去調節解讀方式嗎?這部分是怎么優化的?
James Zhan:這部分主要靠提示詞工程(Prompt Engineering)。我們要求大模型生成的腳本不僅要規劃得好,有開場白、有由淺入深的講解、有總結,我們還希望它能帶上一些小幽默或小段子。
我們下一個版本會完全展開個性化教學。用戶剛來平臺時,我們會通過問卷或小測試(Quiz)對他進行了解,打上標簽,存入數據庫。之后他再生成視頻時,我們就會根據這些標簽,為他定制專屬的教學風格和內容。
瞄準美國高考,一個“不得不學”的主動學習場景
硅星人:你們最初是怎么想到要做這個的?是從技術出發,找到了一個差異化的場景,還是從用戶需求出發?我對這個起源比較好奇。
Kai Zhao:這主要是從用戶需求出發的,YouTube上有一個叫3Blue1Brown的頻道,也是用動畫講解知識,有超7百萬訂閱,是YouTube最火的學習頻道。如果有人問我們,動畫講解有人會喜歡嗎?就可以看看這個頻道訂閱人數。
![]()
另外,我自己在美國也已經有三次教育領域的創業經歷。大一的時候,我做了一款戀愛教育APP;大二的時候,我聯合創辦了另一個教育產品叫MathGPTPro。這個項目入選了奇績創壇,之后我們拿到了130萬美元的融資,再后來他們又申請了Y Combinator(YC),不過那個時候我已經離開了。
MathGPTPro和其他教育類產品一樣,更多的是一種文字問答,瞄準的是作業解答場景。但在整個學習流程中,作業解答的場景鏈條比較短,在技術上也會成為一種類似于ChatGPT Wrapper 的天花板很低的產品,而我們希望能夠滿足學生更有意義、更有價值的學習和復習需求。
通過前面這些項目,我也意識到純文字是無法滿足用戶需求的,回顧人類的學習方式,大家學習任何知識點都偏愛視頻化,而且很多復雜的理科知識需要圖形化的表達。那么,有沒有什么好的技術手段能實現這種視頻化教學呢?正是基于這種思考,我們研發了動畫引擎技術來實現它。
當然,這個產品的成功也得益于幾個關鍵節點:一是多模態AI技術的成熟;二是基礎模型的代碼生成能力的進步,比如Claude。另外還有一個契機,在我們之前,斯坦福大學有一個團隊已經做過類似的產品,叫 Gatekeep.ai,也是通過一句話生成講解視頻,當時產生了很大的影響力。
硅星人:你們在對的時間做了對的事情,這方面的需求和市場也已經被初步驗證過。
Kai Zhao:對,斯坦福的那個產品最終沒有成功,原因是他們做的時候,基礎模型的編程能力還不夠成熟,而且他們沒有在技術上攻克視頻渲染算法和幾何解析等難題。而我們團隊的技術人員很多都是數學動畫引擎的核心開發者,很好地解決了這些問題。
硅星人:其實市面上有很多AI教育產品,有的想模仿人類老師,有的想讓學習過程更有趣,有的是讓學生更快知道答案,有的主打個性化因材施教。你們的路線似乎更聚焦于單點功能,把視頻講解做到極致。你們是怎么看待不同路線的?
Kai Zhao:這是個好問題,我在這方面感觸很深。我們可以把教育產品分為兩大類:主動學習產品和被動學習產品。被動學習產品,比如很多少兒英語App,需要花很多心思去設計游戲化、反饋機制,讓產品變得有趣,因為你需要考慮用戶的學習動機,學習本身是反人性的。
而我們做的是主動學習場景。我們過濾掉了學習動機的問題,因為用戶有非常明確的目標——考試。無論是中國高考還是美國高考,不管你感不感興趣,都必須得學。主動學習場景對應的就是高考、職業培訓、考證,因為你有這個目標,就必須逼著自己學。
至于更快知道答案,這類產品價值鏈比較短,很多時候更像一個“作業解答”工具,比如拍照搜題,最終付費的是學生,場景比較短。
硅星人:那美國高考場景的價值點在哪,用戶有什么特點?
Kai Zhao:美國高考(如SAT)和國內高考很不同,80%的公立學校其實并不圍繞高考內容進行教學。這意味著,學生如果想在SAT中取得好成績,基本都需要靠自己報培訓班、找校外輔導或在網絡平臺自學。這就創造了一個巨大的、學生有強烈主動學習意愿的市場。
而且這個市場的客單價非常高。一個美國家庭在孩子備考上投入兩到三萬美金(約十幾萬人民幣)是很常見的。我們的產品能提供比真人網課更便宜、效果甚至更好的個性化學習體驗,這里的價值潛力是巨大的。
硅星人:我看到你們網站上有一個很有趣的案例,是講解“為什么芬達冰鎮的更好喝”。這似乎超出了備考的范疇。
Kai Zhao:(笑)是的,這也確實體現了我們技術的能力,能夠滿足學生各種各樣的好奇心。你可以把它理解為一個“科學百科知識視頻化助手”。學生時期總會有各種奇奇怪怪的想法,這些內容用視頻的方式來解釋,遠比看一段干巴巴的文字更有趣,也更容易理解。
我們希望 VideoTutor 能成為每個人學習理科知識的 AI 老師,甚至未來它可能會超過多鄰國。在 STEM 理科場景,過去一直沒有出現類似多鄰國的世界級的產品,因為理科需要太多圖形渲染,而現在基礎模型的技術已經 ready 了,所以我覺得理科場景會誕生下一個多鄰國。
硅星人:目前產品的市場反饋怎么樣?
Kai Zhao:我們產品上線不到5個月,完全沒有做任何市場投放,靠用戶在Twitter等社交媒體上的自然轉發,現在已經有超過4萬名注冊用戶,生成了超過10萬條視頻。
我們篩選了200名美國高中生作為種子用戶,每天給我們提供反饋。其中一半以上的同學覺得,我們的視頻效果已經非常準了,不亞于他們花錢買的網課視頻。無論是圖形渲染、講解邏輯還是聲音,都讓他們感覺不到這是AI生成的。目前已經有超過1000家企業和機構來咨詢API購買,很多美國高校想和我們合作,家長們也在我們Twitter下留言,希望能盡快開通付費功能。
![]()
硅星人:你們現在是一個C端產品,也會服務B端的客戶嗎?
Kai Zhao:目前確實聚焦在C端產品上,但已經看到了非常強烈的B端需求。比如印度最大的教培機構之一就是通過他們的老師發現了我們,推薦給了學校負責人,聯系我們,希望能提供定制化的服務。
不過,由于我們團隊剛剛成立幾個月,規模還很小,目前的工程能力還不足以為B端客戶進行大規模的針對性定制開發。因此,我們現在的策略是先全力打磨好C端產品。我們計劃在下一階段服務B端客戶,等團隊擴充、產品更成熟之后。
輟學創業、大廠“出逃”,六人團隊撬動千萬美元
硅星人:這次千萬美元的種子輪融資,在硅谷學生創業里是破紀錄的。過程順利嗎?投資人最看好你們哪一點?
Kai Zhao:過程非常順利,我們一共拿到了十幾家VC的offer,整個融資在20天內就完成了。基本都是VC主動找過來,聊完第一輪就直接給offer了。
我覺得有幾個綜合原因:
第一,團隊背景。我個人從大一開始就在美國三次進行教育領域的創業,對這個行業有足夠深的認知。我們的技術團隊非常優秀,有來自斯坦福的,也有動畫引擎核心庫的作者,工程能力很強。這其實是硅谷投資人很喜歡的“小天才團隊”。
第二,技術壁壘。我們不是簡單地套用大模型API,而是在幾何解析、動畫渲染算法上做了很深的“Deep Tech”工作,并且訓練了超過8000條SAT和7000多條AP的樣本視頻。
第三,市場和時機。我們切入的主動學習場景痛點明確,價值巨大。在這個方向——多模態AI教育里,VideoTutor是目前跑得最快、最出名的產品。產品上線后,純靠自然增長就獲得了很好的用戶數據和口碑,這證明了產品的價值。
![]()
這幾點結合起來,我們成了一個“共識性”的項目,投資人不愿意錯過。
硅星人:我們注意到領投方是幣安創始人趙長鵬(CZ)的YZi Labs。他為什么投你們?
Kai Zhao:CZ本人離開幣安后就在做一個叫“Giggle Academy”的教育項目,教育是他非常關注的第二事業線。我們和他本人聊了,他非常認可我們的方向。整個過程非常快,他和他的團隊在兩三天內就做出了投資決定。
![]()
VideoTutor 在 YZi Labs EASY Residency Demo Day 登上紐交所路演
硅星人:Kai,你個人的經歷也很有傳奇色彩,從安徽小城走出來,大一開始就連續創業,現在拿到了硅谷學生最大一筆種子輪,為什么很早就開始連續創業了?
Kai Zhao:我自己就是教育改變命運的例子。我是阜陽的,家境很普通,父母是賣了房子支持我來美國留學的。如果不是從小到大接受了好的教育,我不可能有機會在大三這年,站在硅谷的舞臺上,拿到頂尖VC的支持,去實現自己的夢想。我高中時就向往硅谷,向往史蒂夫·喬布斯,所以來美國讀書的目標之一就是創辦一家科技公司,教育也是我喜歡的領域。
其實,大一創業的動機之一就是想掙些錢,讓父母不用再付學費,和當時還是學長的James一起,雖然失敗了,但學會了如何判斷PMF;大二做的第二個項目很成功,入選了YC。這也是第三次教育創業,VideoTutor是我過去所有認知和經驗的迭代。為了全身心投入,我已經從大學輟學了,不過我爸媽還不知道(笑)。
硅星人:在硅谷學生創業氛圍也很好。
Kai Zhao:是的,這里的環境會讓你覺得,創業是一件非常正常,甚至是理所應當的事情。
無論是高校還是資本都極其支持。每個大學都有自己的創業加速器,還有專門投大學生的VC。這里有非常多大學生創業的成功案例,比如Facebook的創始人。我們學校也誕生了像WhatsApp創始人這樣的優秀創業校友。這些先例會助推整個環境,讓資本和大學都愿意去鼓勵學生創新。
更重要的是,這里的年輕人普遍有一種非常寶貴的品質,就是“冒險精神”和承擔風險的能力。比如我,還有一年就能拿到畢業證,但我現在輟學了。在很多傳統觀念里,這是無法接受的事情。
硅星人:你個人的三次創業,在拿錢上也很順利嗎?
Kai Zhao:其實大一的時候不順利,當時我主動去參加各種創業活動和孵化器,但一直被拒絕。
我甚至見了一個國內非常有名的、排名第一的天使投資VC的管理合伙人。他當時的評價是,我“too young, too naive”;還有凌晨3點多跑到投資人出差的酒店里,當面講了一個多小時,結果被回復說“我有點困了,想先休息”,然后我又屁顛兒屁顛兒地早上6點多回去。
真的被幾十個人拒絕過,但我就覺得,無論遇到多少次拒絕,都不能放棄。
硅星人:那James呢,你之前在Meta和Google Gemini工作,可以說是很多人夢寐以求的職業路徑。為什么選擇離開大廠,和Kai一起創業?
James Zhan:在大廠工作就像一個圍城,外面的人想進去,里面的人想出來。尤其在硅谷,大廠員工遍地都是,你去飯店,天花板砸下來都能砸死兩個,你并不特別。每天上班感覺大家都有點行尸走肉,你只是一個“螺絲釘”,一個單純的“牛馬”,沒有太多主導權。
我一直想做一些屬于自己的、與眾不同的東西。我覺得大模型的應用層比基礎層更有趣,你可以直接接觸用戶,馬上看到你做的東西是好是壞,成就感更高。當Kai帶著VideoTutor這個方向找到我,加上我們無論是方向還是融資都比較順利,我覺得就沒必要耗著了,可以全職出來為自己的夢想買單。
硅星人:現在你們5個月,就拿到了1100萬美元,目前的進展符合預期嗎?
Kai Zhao:我不太意外。因為之前創業三次,每次都能拿到融資,我自己知道VideoTutor的方向能很好地滿足行業和用戶的需求,融資不是問題的。
James Zhan:對我來說,其實是有點Surprise的。因為我們是做技術出身,對融資這些沒有太大期望。但我很相信我們的技術,我們團隊的技術背景很硬。所以我只能說有一點驚喜,但也沒有完全超出我的預期。
硅星人:接下來,你們要做的是什么?打算拿這筆錢去做什么?
Kai Zhao:我們主要將資金用于擴充工程團隊,迭代動畫引擎技術,以及一部分用于市場營銷和公司日常運營。我們團隊目前規模還很小,加上現在AI創業人才是最稀缺的,所以我們也需要在國內大廠有過快速迭代經驗的人才一起把產品做好。
![]()
我也在這里打個廣告,歡迎更多的人才聯系我們、加入我們。(更多招聘信息:https://videotutor.io/)
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.