網易首頁 > 網易號 > 正文申請入駐

靠給用戶念書，AI語音產品移動端月入千萬

2025-09-11 15:56:11　來源: 白鯨出海

四川舉報

分享至

封面圖片由AI生成

別家卷模型，它默默賺錢。

2023 年，我們曾經觀察過第一期 a16z 的 AI 產品榜單，當時訪問量 Top50 的 Web 端產品中，僅有 2 款面向 AI 語音場景，分別是 ElevenLabs 和 Speechify。彼時，Speechify 的網站訪問量排名第 23 位，比 ElevenLabs 還高了 1 位。

第一期a16z AI產品榜單，2023年8月｜圖片來源：a16z

但在后續的時間里，相比頻繁刷存在感的 EleveLabs，Speechify 可以說沒啥存在感。

兩年過去，ElevenLabs 已經融資 2.6 億美元，網站訪問量超 2500 萬，穩坐 AI Web 全球 Top50 榜單，成為 AI 語音賽道的頭部創企。而 Speechify 卻漸漸“掉隊”，榜單中難覓身影，而作為一個 AI 企業，它僅在 2017 和 2020 年有過兩次融資，近幾年也沒有傳出任何融資消息。

8 月 29 日美國 iOS 效率暢銷榜｜圖片來源：點點數據

但“驚喜”的是，它在 App 端默默賺錢。近兩個月，Speechify 登上了點點數據的美國 iOS 暢銷總榜Top150，并能夠持續在榜，而在美國iOS效率暢銷榜上，Speechify 的收入排名第 4，根據點點數據，Speechify 7 月份全球雙端流水為 251 萬美元，而 Sensor Tower 給出的數據還要更高一些，全球雙端收入為 340 萬美元。

圖源：Speechify 官網，根據官方 8 月 12 日給出的數據，Speechify 全平臺（App、Web、Chrome 插件）總用戶量已經突破 5000 萬

SensorTower 全球及美國AI產品收入榜單排名，根據 Sensor Tower 數據，Speechify 上月全球雙端收入為 340 萬美元，高于 ChatBox 的 310 萬美元，但低于 ChatOn 的 550 萬美元，排名在第三和第四之間；點點數據雖然具體數值有所出入，但相對排位與Sensor Tower 一致｜數據來源：Sensor Tower、點點數據

根據報告和以往觀察，移動端能夠取得不錯商業化成績的 AI 產品，大多都是 ChatBot，而 Speechify 作為一款 AI 音頻產品，能夠在移動端取得相當不錯的商業化成績，實屬不易。

靠“聽書”，切入個人學習提效場景

從功能上看，Speechify 屬于“音頻輸出產品”，但與我們之前測評過的 ElevenLabs、MiniMax 等泛場景 AI 語音平臺不同，Speechify 更“工具化“，明確指向“AI 讀書場景“，即用戶上傳各種文字內容，AI 將其朗讀出來，讓用戶在不方便閱讀時，通過聽，來獲取信息，其產品設計也指向“個人學習提效”場景。

從 App 端的產品設計來看，Speechify 需要用戶自行上傳文字內容。上傳文字內容的方式非常多，除直接輸入文字外，用戶還可以通過鏈接、文件、云盤、照片，掃描紙質書等方式上傳內容，而相比之下 App 端的 ElevenLabs，僅支持通過輸入文字的方式上傳。除此之外，Speechify 還提供一個電子圖書館（上圖紅框），用戶可以免費收聽里面的電子書。

確定文字內容后，就會直接跳轉到朗讀頁面，朗讀時，用戶可以以“0.05 倍”為單位調節速度，而且可以選擇逐漸加速的模式，相比其他產品，這個“調節顆粒度”相當精細。

用戶也可以按照自己的偏好讓系統幫忙選擇聲音（上圖紅框），或克隆自己喜歡的聲音（上圖黃框）

朗讀頁面的右下角，用戶可以在左下角選擇聲音和語言，官方介紹，Speechify 一共支持 52 種語言，各語言還提供多種口音和音色，共 2000 多種。以英語為例，Speechify 提供英、美、澳、印度、南非、愛爾蘭 6 種口音，不同音色超過 50 種。這些音色中還包括很多知名人士的聲音，比如知名 YouTuber MrBeast、演員 Gwyneth Paltrow 等等，且根據官網的說法，這些聲音都已獲得本人授權。

雖然，Speechify 提供的聲音種類豐富，但從聲音效果看，就算是讀書場景，也要比 ElevenLabs 差一些。筆者用英文版《雙城記》的經典開頭測試了 Speechify 和 ElevenLabs，雖然從聲音的質感上兩者確實差不多，但從朗讀的節奏方面，ElevenLabs 更加自然，Speechify 則有些怪怪的。

而 8 月 12 日，Speechify 在開學季更新中推出了一系列新功能，讓產品的定位，更偏向于“知識獲取”場景。此次更新包括 AI 聊天、AI 回顧、內容總結、測驗生成、播客生成等 AI 功能，以及重點標注、文字批注等功能。

以播客生成為例，相比此前選題中觀察過的播客生成產品，Speechify 除了能生成兩人對話形式的播客，還能生成電臺節目、講座、辯論等不同的對談形式。但是，Speechify 的播客生成功能僅支持英文，也沒有能夠下載音頻或者轉發分享的渠道，所以，該功能更像 NoteBookLM 的“音頻概覽”，主要目的仍是幫用戶更好地吸收信息、減小雙眼壓力。

用 Speechify 學外語的分享（上），閱讀文獻的分享（下）｜圖片來源：Reddit

從用戶側來看，根據 Reddit 用戶的分享，典型的細分場景有學外語和閱讀專業文獻，有用戶分享他在學習瑞典語的時候將學習材料上傳給 Speechify，通過跟讀的方式來糾正發音，并在碎片時間學習；而另一位用戶分享，他用 Speechify 來閱讀學術文獻。總體而言，無論是功能，還是用戶分享，Speechify 落地的基本場景是“學習、知識獲取”。

之前不少播客平臺的興起，已經證明了用戶愿意花大把時間“用耳朵獲取知識”；而谷歌 NotebookLM 音頻概覽功能的爆火，也證明了用戶需求，而 Speechify 在移動端的商業化成績則證明，用戶是愿意為“聽知識”付費的。

高價+高付費墻+年訂閱=高收入

Reddit 上，絕大多數用戶都不否認 Speechify 確實非常有用，但它的高定價和付費點則受到了普遍吐槽。能夠解鎖所有功能的 Premium，定價高達 140 美元/年，且在 App 中沒有其他訂閱選項，點點數據的內購項目顯示，Speechify App 端 70%+的收入來自年訂閱。

注：App中Speechify只提供年訂閱入口，用戶需要到應用商店的訂閱管理頁面才能找到其他的訂閱方案。

有海外的文章分析，由于 Speechify 指向“知識獲取場景”，許多用戶都會在特定月份（“學年期間”、“年初年末”）等時段集中使用，而假期則很少使用，如果采用月訂閱方案的話，可能無法負擔成本。

而與“高價、年訂閱”相配合的，則是“高付費墻”，如果不訂閱，用戶僅能使用機械感很強的基礎語音，也只能同時保留 5 個文件，無法使用加速功能、以及 AI 聊天、總結、播客、測驗生成等進階功能。體驗下來，由于基礎版語音的效果確實不好，筆者聽幾分鐘就會感到疲倦，可以當助眠產品來用，非訂閱用戶的體驗相當糟糕。

Speechify、Reader by Elevenlabs、Text toSpeech ARPMAU 數據｜圖片來源：點點數據

秉持這樣的思路，Speechify 的數據呈現“低用戶量，高 ARPU”的狀態，7 月份，Speechify MAU 大概 50 萬左右，遠低于 a16z App 端 Top50 MAU 的門檻，但它的 ARPMAU 達到 4 美元以上，遠超其他同類產品。

整體看下來，Speechify 不錯的商業化成績，一是它“用音頻在學習場景做提效”，打到大家想學習、但又難坐得住用雙眼學習的剛需；另一方面，“高價年訂閱，卡付費點”讓剛需用戶們不得不掏錢，形成低用戶、高訂閱收入的局面。

但不得不說，對于所有 AI 產品來說，Speechify 都“示范”了如何用 AI 找到場景、賺到錢。

靠失讀癥人群冷啟動，主動出擊獲取用戶反饋

Speechify 于 2017 年上線，最初是創始人 Cliff Weitzman 的個人提效工具，靠著這款工具，患有嚴重的失讀癥和 ADHD 的 Cliff，成功從布朗大學畢業。Cliff 在播客中表示，小時候，父親發現了自己有閱讀障礙后，就用磁帶錄下了一本《哈里波特》，讓他通過聽的方式學習英語，Cliff 每天都要聽著它入睡，這部有聲書，他聽了足足 22 遍，也養成了通過聲音獲取信息的習慣。

根據某機構估算，15-20%的美國人都患有不同程度的閱讀障礙，有 200 萬人確診失讀癥

大學期間，精通編程的 Cliff 與患失明癥的弟弟 Tyler，共同開發了一款文字轉語音工具，幫自己閱讀文獻。而一個不經意的機會，他將 Demo 發上了 YouTube，1 天時間拿下了超過 30 萬次觀看，很多失讀癥病友們在評論區表示這個 Demo 讓他們激動哭了。而從宏觀數據看，僅在美國，就有 15-20% 的人口有不同程度的閱讀障礙，200 萬人確診失讀癥，這個“剛需”人群真的不小。

因此，Cliff 決定將這個工具開發成一款產品，來幫助更多的人，順理成章地，這個群體也成為了 Speechify 冷啟動的目標人群。Speechify 的冷啟動突出一個“主動出擊”，創始人 Cliff 曾經偷偷溜進國際失讀癥協會的會議，并在主講人演講完后，跳上演講臺開始演示 Speechify，演示過后，就有 12 所學校的校長當場表示愿意邀請他去學校，教學生們使用 Speechify。此后，參加會議、深入學校和社區做“地推”，成為了 Speechify 的主要冷啟動方式，并取得了不錯的成績。

雖然冷啟動取得成功，但 Speechify 初期存在大量的 bug，以及 UI/功能的設計缺陷，導致用戶流失問題非常嚴重。而解決用戶流失問題，Cliff 貫徹了“主動出擊”的行為模式，他曾經導出了前 300 個 90 天內流失掉的用戶的聯系方式，然后打電話詢問對方對產品的看法，并根據反饋針對性地優化產品；他還曾在大學校園里用膠帶封住自己的嘴巴，然后把手機交給用戶，觀察他們如何使用產品，發現設計缺陷。

他表示，目前，Speechify 中不少備受好評的功能，就來自于對用戶需求的深度洞察，比如，自動加速功能。Cliff 解釋道，很多用戶都感覺，在聽的過程中，自己慢慢適應了 AI 的語速，就希望 AI 念的快一些，但是如果直接將語速翻倍，則會覺得太快無法適應。所以，Cliff 升級了加速功能，允許用戶按“0.05 倍”的顆粒度調節語速，而且還開發了一個自動加速功能，每聽完 500 個詞，就加速一點點，讓用戶不需要再費力調節語速。

而經過產品不斷的迭代，Speechify 的用戶也從失讀者，擴展到了需要用音頻方式來提效的其他人群，并在今年 6 月獲得了蘋果設計獎的“多元包容”獎項。目前，Speechify 除了 Web 和 App 端，還推出了 Chrome 插件，可以一鍵為用戶朗讀網頁上的內容，Chrome 應用商店顯示，Speechify 插件的用戶數已經突破了 100 萬。

Speechify 的上線時間遠遠早于這一波生成式 AI 的熱潮，也許它并不算是用AI技術找到場景的最佳案例，但恰巧該反思的是，當創業時，如果我們思考的是我可以用 AI 解決什么問題，可能已經偏離了“正確道路”。先看到問題，比 AI 技術更加重要。

數據來自SimilarWeb、點點數據、Semrush、廣大大等三方平臺，可能與真實數據中存在一定誤差，僅供參考。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.