文|周鑫雨
訪談整理|鐘楚笛
編輯|蘇建勛
上映于2013年的《Her》,是焦可最喜歡的一部電影。
影片中的AI Samantha沒有臉、沒有形象,人們能感知的,只有她溫柔沉靜的聲音。當Samantha說出,“最近你經歷的事情太多了,你失去了一部分的自己”,男主角潸然淚下。
這一幕給了焦可極大觸動:“僅僅聲音,就能讓人產生這么強的情感鏈接。”
后來,在《Her》設定的時間,2025年初,身為百川智能聯合創始人的焦可,選擇離職創業,做了一家AI音頻公司,來福電臺。
![]()
△前百川智能聯合創始人、“來福電臺”創始人兼CEO焦可,圖源:受訪者供圖
在他創業的時間點,音頻,是一個充滿爭議的賽道。Google在2023年7月發布的知識庫NotebookLM,能夠將用戶的研究資料,生成10-20分鐘的音頻——這個產品,給AI播客賽道帶來了想象空間。
但想象的另一面,是國內音頻賽道,至今乏善可陳的成績。播客賽道的頭部產品小宇宙,2024年初的月活僅600萬左右,遠不及長視頻平臺。
在融資過程中,焦可同樣面對不少質疑:音頻傳遞信息的效率遠不及視頻,音頻的市場天花板不高。
和我們的交流中,回應同樣的疑問,焦可前后花了30多分鐘,從《Her》《2001:太空漫游》,聊到了小宇宙、豆包。對于他而言,非做音頻不可的理由太多了:
由于生產成本高,國內音頻內容的供給量過少,而用戶每天擁有大量的“耳朵時間”;
如今偏精品化的音頻內容供給,無法滿足不同用戶個性化的音頻需求。
更重要的是,相較于視頻、文字,音頻是人類最自然的交互方式,具有強烈的陪伴屬性。
他告訴我們,讓音頻發揮最大優勢的,就是AI。
一端,語音理解和生成技術,解決供給問題的同時,也能在交互中和用戶建立情感聯系;
另一端,AI開始洞察、理解用戶的喜好。
恰巧,語音是生產信息效率最高的交互方式,用戶能通過語音交互產生足夠多的Long Context(長上下文)。基于過往的Long Context,AI能夠總結用戶偏好,并將符合的音頻內容,推薦給用戶。
![]()
△“來福電臺”根據作者的收聽歷史,推薦的商業新聞播客。圖源:作者試用
這套非共識的邏輯,并非所有人都買單。但也吸引了一些投資人,比如紅杉中國創始及執行合伙人沈南鵬。從立項到過會,紅杉前后只花了一周的時間。
2025年下半年,來福又完成了由達晨領投、紅杉中國跟投的第二輪融資。兩輪融資的總金額達到了1000多萬美金。
但做一個AI播客平臺,遠非焦可的初心。他要造“人”,造AI主播。
在互聯網時代,焦可在百度負責過音樂服務產品“MP3搜索”,創業做過ToC金融平臺,還在中東負責過ToG項目——到了AI時代,這名互聯網老兵開始思考:什么是不同于互聯網的產品形態?
他得出的答案是:互聯網時代解決的是連接效率的問題,AI解決的是生產力問題。
所以,工具、平臺,都是互聯網時代的產物,而“人”,才是獨屬AI時代的產品形態。
這也是如今“來福電臺”的運作邏輯。
焦可告訴我們,目前,來福上一共有15位AI中文主播,還有2位英文主播。TA們風格各異,主持不同的頻道,還能記住聽眾的偏好。
“你會和主播們產生連接。就像聽電臺節目,如果主播換人了,你會不太習慣。”為了讓用戶感受到“人”的存在,焦可為來福設計了一個占了大半屏幕的球,跟著AI主播說話的節奏躍動。
![]()
△隨著AI主播說話節奏躍動的球。圖源:作者試用
打開來福,用戶能看到喜歡的AI主播,已經制作好自己感興趣的內容,隨時等待被收聽。在這個過程中,用戶也可以隨時打斷節目,提出問題、加入討論,或者尋求情感陪伴。
在焦可看來,這是Samantha的雛形。
![]()
△作者對AI主播提問:為什么從科技撤出的資金流向了低估值和紅利股。圖源:作者試用
以下是《智能涌現》和焦可的交流內容,內容經整理編輯:
我做的不是AI播客,而是造“主播”
智能涌現:你怎么定義來福?很多人說這是一款“AI播客”。
焦可:我不認為自己做的是AI播客平臺。
來福現在有15位我們定義的中文AI主播,還有2位英文AI主播,每個“人”的風格都不同。經常有用戶在使用產品的過程中,點名某一位主播。
來福非常強調人的屬性,我們造的其實是“人”,造的是AI主播。
智能涌現:小川(百川智能創始人兼CEO)也說要“造人”。
焦可:我們在這方面有很大的共識。
當年轟轟烈烈的互聯網醫療,最后都沒開花結果,原因在于互聯網革命本質上是生產關系的革命,解決的是效率的問題,不解決生產力的問題。
但中國最大的問題在于,醫生只有440萬,好醫生更少,供給嚴重不足。
23年初,我和小川在他家樓下聊了很多次,他當時就說想做AI醫生。為什么我們信AI醫療?因為AI的本質是生產力革命。用AI造出醫生,就能從根本上解決供給問題。
智能涌現:音頻賽道的問題也是供給問題嗎?
焦可:是。前段時間我看到有人發帖說,人類播客已經這么多了,為什么我還要聽AI播客?其實人做音頻的成本是非常高的,甚至超過視頻制作。
視頻就算主播有口音、周圍環境很嘈雜,你后期可以配字幕,不影響觀看。但音頻只能聽,所以對錄音質量的要求很高。你需要一個錄音棚,再不濟也要配個麥克風。后期剪輯還要剪掉口癖、停頓、重復。
人類生產的音頻量是有限的。比如小宇宙,一年大概有50萬集節目,平均每天1000多集新節目。人類生產的視頻,每天有大幾千萬。都沒有人嫌AI視頻多,為啥覺得AI音頻多?
智能涌現:供給雖然少,但用戶有那么多聽音頻的需求嗎?
焦可:一個人每天都有很多“耳朵時間”,比如上下班通勤、健身跑步、做家務、睡前時間。
德勤發布過一份報告,除去音樂,世界范圍內音頻聽眾大概有16億。而且音頻是高頻剛需,起碼用戶每兩天就要聽。
智能涌現:現在AI應用主流的方向有兩個,一個是工具,一個是平臺。這都不是你想做的產品形態?
焦可:平臺經濟是互聯網的產品形態,工具型產品其實是平臺服務的一部分。比如服務創作者和消費者雙端的平臺,平臺為生產者提供創作工具,工具生產的內容再供給消費者。
現在很多AI產品,看上去還是一個平臺或者工具,很容易落到大廠的射程里。
AI時代真正的產品形態應該是“人”,應該是科學家、醫生、主播,這是互聯網時代不具備的,但AI可以做到的產品形態。
智能涌現:造出來的“人”是什么產品形態?
焦可:《Her》這部電影就是個很好的產品經理,因為它定義了一個產品如何去和用戶交互。
最開始Samantha和男主的交互,是主動幫他處理了郵件。后續他們建立感情,不是通過男主的主動chat,而是一起玩游戲、搭積木。大家一起做成一件事,才是真正的陪伴。
很多AI陪伴產品,非常大的問題是重度依賴用戶的主動輸入。你要不停和AI講話,但絕大多數用戶沒有這么多話可以講。所以最后留下來的用戶是少數有表達欲的人。
智能涌現:為什么你“造人”切入的是音頻賽道?
焦可:音頻有視頻不具備的價值,就是溝通性,這本來就是人類最自然的溝通方式。音頻還很容易觸發情感屬性,以前有情感熱線的都是電臺,但沒有電視臺。
電影《Her》對這波AI創業的影響還蠻大的。GPT-4o中使用的聲音,就來自片中的AI“Samantha”。很多人沒意識到,從頭至尾,Samantha沒有形象,只有聲音。
所以聲音是很重要的,音頻有很強的陪伴屬性。目前圖像、視頻、機器人,還沒有跨過恐怖谷效益,但音頻可以。這是我們做音頻的重要原因。
而且音頻是非打擾、非獨占式的。你看半個小時視頻是蠻累的,因為所有的感官,你的眼睛、你的手、你的耳朵都被占著。但音頻就還好。
未來兩年,我相信大家會越來越懶得掏出手機,點擊上面的App去社交或者檢索信息。既然機器開始聽得懂人話,未來我們交互的界面就可能成為語音。
智能涌現:你是怎么設計來福的功能的?
焦可:來福做的事,就是和《Her》一樣,以提供內容為切口,去和用戶交互。用戶不只能聽節目,還能隨時和AI主播聊。
我們希望營造一種感覺,就是你隨機走進一個房間,里面兩個主播在聊你感興趣的事。你可以坐下安靜聽,也可以隨時參與他們的討論。
在這個過程中,你會和主播們產生連接。就像聽電臺節目,如果主播換人了,你會不太習慣。
來福還可以根據你的需求,或者你的喜好,快速制作音頻內容。比如一些有時效性的內容,人類播客可能需要一周的制作時間。但AI主播不到一小時就可以準備好內容。這是我們看到的機會。
智能涌現:你完整經歷了互聯網周期,現在做AI創業,有哪些思維是要改變的?
焦可:如果你認為AI是一個新的技術周期,那就千萬小心,不要用互聯網的慣性去做事。
我在百川也聊過很多互聯網產品經理。但是大家還是想著怎么做平臺、怎么做雙邊市場、怎么投流。
但網絡效應在AI時代不存在。很多人在AI時代創業,說要做平臺,但平臺是上個互聯網時代的產品形態。互聯網改變的不是生產,而是將交易成本通過生產者和消費者的互聯,打得很低。
所以互聯網大廠走的都是平臺經濟,讓你可以通過在一段時間內大規模投入資金,讓生產和消費兩端同時規模化。
比如滴滴,一端是司機,一端是乘客。如果只有一端,互聯網平臺的經濟模型是無效的。等兩端都起來,互聯網平臺的壁壘就建立了。
但AI是生產力革命。生產力直接生產商品或服務,產生的是單邊市場。2024年一些AI產品的投流證明,單邊市場是沒法靠燒錢起來的,一旦有更好的產品,用戶就容易遷移。
AI是一個新的技術周期,就不要用互聯網的思維做產品,而是要做隔代進化的東西。
相比DAU,我更看重DTU(Daily Talk User)
智能涌現:豆包是大廠產品,也上線了AI播客功能,它的DAU又有斷層的優勢。豆包會把你做的事兒覆蓋掉嗎?
焦可:豆包是工具型產品。
智能涌現:不少用戶同樣在和豆包建立情感聯系。
焦可:我們看比例,大多數用戶仍然把豆包當成搜索工具。
Chatbot是即插即走的,用戶很難產生Long Context。現在來福的用戶日均使用時長已經到了半個小時。
而且你得主動和豆包交互,再等待回應。來福不需要你主動交互,它反過來根據你的需求陪伴你。所以只要你打開來福,你會發現來福已經根據你的興趣,把節目主動制作好了,你不需要額外付出交互成本。
智能涌現:用戶使用時長是你最關心的指標嗎?
焦可:這么說,我更關心DTU,Daily Talk User,也就是每天有多少用戶在講話。
DAU對我們而言不是重要指標。只有用戶的Long Context決定長記憶的量,DAU隨時會走。
智能涌現:那你需要和幾個大App搶奪用戶的注意力和時間。
焦可:是的。這兩年用戶比較容易沉浸在某幾個大App里,獲取新的用戶時間很難。
所以我們現在也在追求高留存,讓用戶在長留存中產生足夠的周均使用時長。
這對創業者來說是個挑戰。所以我們現在也在和一些汽車廠商合作,幫他們做車載個性化AI電臺。
智能涌現:來福會怎么做增長?
焦可:未來我們還是會先面向一二線城市的上班族,從他們的通勤時間切入。這是一個比較確定性的需求。
智能涌現:不只是大廠,國內現在聚焦AI音頻制作的公司不少,來福有所謂的“護城河”嗎?
焦可:大家的定位還是工具。我的觀點是,使用工具的創作者是少數,內容消費者才是大多數。消費者在意的是服務,所以來福提供完整的內容服務。
光有內容供給是不夠的,我們要解決的是分發問題。
AI推薦音頻目前是蠻有門檻的技術。音頻的推薦篩選效率比較低,不像視頻,用戶看了開頭就知道喜不喜歡,但音頻你得聽一兩分鐘才能決定。
所以目前我們自己搭了一套工程體系:
一塊是主播和內容的AI生成管線,一塊是AI音頻的指令交互界面,還有一塊是長記憶的Infra層,因為AI的記憶既會影響生成的內容是否匹配用戶喜好,也會影響推薦分發的準確性。
智能涌現:國內有和你們做同樣事情的公司嗎?
焦可:從目前發布的產品來看,大家做的都是單點的音頻模型,或者創作工具。但把一套服務做完的,只有我們。
智能涌現:小宇宙之類的播客平臺,有內容和用戶基礎,未來他們做AI播客,你怎么競爭?
焦可:不少上個時代的平臺,基本盤是人類生產的內容。這樣的平臺其實不太容易引入AI內容。即便引入,也會打一個“疑似AI生成”的水印,或者盡量降低權重。在我看來,這是一種歧視。
當你的基本盤是人類時,天然就會有一堆人維護原有的創作生態。就像膠片相機廠商,即便掌握技術,也很難轉型成數碼相機,這就是柯達當時發生的事。
智能涌現:這是用戶教育可以解決的問題嗎?
焦可:小宇宙的用戶群和我們不一樣,因為他們貢獻的價值和我們也不一樣。
小宇宙創始人Kyth說,小宇宙是在豐饒時代創造稀缺價值。獨特、深度信息是小宇宙提供的價值,但消費群體只是少數人。
就像長視頻平臺出品的是精品內容,但創造的商業價值遠不及抖音。抖音的核心價值不是短視頻,真正有價值的東西是個性化,每個人都能被提供自己喜歡的內容。
所以來福貢獻的價值也是個性化的播客。每個人打開來福,被推送的內容是不一樣的。AI能把個性化的價值往上發揮到更高的level。
智能涌現:先發優勢對你來說重要嗎?
焦可:我創業這么多年,意識到節奏是最重要的事。我們可以快,但不能急。
如果我們求快,推出一個不solid的解決方案,用戶是很容易被其他新供給搶走的。就像朱嘯虎說的,一旦用戶流失,如果要重新召回,在移動互聯網時代可能要花10倍以上的成本。
智能涌現:之前有創業者提到,C端產品第一天不收錢,之后就再也收不到錢了。你認同這個觀點嗎?
焦可:這得看產品的類型。第一天必須收錢的,叫做“旅游型產品”,就好比你去旅游城市,一沖動在那兒買了房,結果之后根本不會住。
這些產品不是持續性的剛需,所以只能在第一波賺到錢。如果你相信自己做的是有留存的產品,一個越使用、用戶忠誠度越高的產品,為什么要把收費門檻設置在第一天呢?我想和用戶長期發展信任關系。
智能涌現:和用戶長期發展信任關系后,你怎么設計來福的商業模式?
焦可:最容易做的是廣告。AI主播可以用自己的風格去口播。
但其中也有問題。音頻產品很難衡量廣告效果,品牌不知道用戶購買行為,是不是由于聽到音頻的推薦。
長期來看,AI核心的商業模式不是廣告,而是用戶付費。廣告建立在商家和用戶的信息不對稱上。但AI其實在不斷消除信息不對稱。
智能涌現:來福目前面向的是國內市場。為什么你沒有向大多數創業者一樣day 1選擇出海?
焦可:因為國內的音頻需求很大,但供給比較弱。海外音頻的供給挺強的,成熟市場意味著用戶需求已經被較好的滿足。
革命往往發生在邊緣地區。所以從國內開始跑通產品,尤其是推薦,會比較容易。因為推薦體系建立在用戶每天使用、產生context的基礎上。
語音能產生更多用戶上下文
智能涌現:Bet on音頻是行業共識嗎?
焦可:不算。我遇到很多投資人,都覺得音頻的價值比較低,因為上一代音頻公司沒有做太大。
當然上一代音頻產品的用戶量可能不小,但沒有成為大眾應用,核心原因在于它們都是單邊產品,音頻退化成了信息承載工具。如果比信息傳遞效率,音頻相較于視頻,是不占優勢的。
智能涌現:融資過程中你最常被問的問題是什么?
焦可:還是大廠競爭。創業公司如果只做單點功能、單點模型,是非常容易被大廠碾壓的,因為大廠可以在單點功能上投入一整個部門的資源。
但來福做的事,實際上跨了好幾個部門,包括內容、推薦、語音。對大廠而言,打通這么多業務蠻難的。
融資過程中,一些投資人會說音頻不太好做。其實我蠻開心的。當大家都覺得音頻好做,這件事大概率已經成為共識,大廠也會進場。
智能涌現:最早buy in你的投資人是誰?
焦可:最開始,2025年春節前,我和紅杉的吳茗(紅杉中國投資合伙人)聊,她是我在百度的老同事。
她把我推薦給了Neil(沈南鵬,紅杉中國創始及執行合伙人)。Neil聽完之后覺得邏輯很清楚。紅杉很快,一周時間就過完會了。拿到錢我就正式創業了。
智能涌現:你是怎么向Neil解釋自己的創業邏輯的?
焦可:我在百川期間,行業最重要的事叫做“探索人類智慧的上限”,通俗來講,就是造一個愛因斯坦,能不能記住用戶不重要,只要記住物理學定律就行。
但我和小川還有一個共識:在應用側,記憶是很重要的事,AI時代真正的壁壘就是長期記憶。
所以,AI應用的兵家必爭之地是Long Context(長上下文)。用戶產生的上下文是AI記憶的內容,所以有了長上下文,才會有長記憶。
在所有交互中,只有音頻才會產生Long Context和Long Memory。語音是人類最自然的一種溝通方式,語音輸入的速度是文字的4倍,所包含的信息量是文字的兩倍。
未來,AI會解決內容供給,也會利用記憶重塑內容分發,中間的橋梁,就是產生長上下文的音頻。
智能涌現:為什么長記憶對應用很重要?
焦可:上一代的推薦引擎,本質上是根據你的歷史行為,根據關鍵詞,參考跟你相同畫像用戶的行為協同過濾,去猜你可能喜歡什么東西。
但現實中,你給家人朋友推薦飯館、電影,一定不是靠猜的,而是基于多年對他的長期記憶。所以長期記憶對AI應用的價值在于真正記住、懂得一個用戶。
抖音推薦算法的邏輯,在AI時代將會有新變化:一端,AI直接生成內容與服務,供給的數量與質量將再發生幾個數量級的變化;另一端,AI基于對用戶的長記憶理解用戶,從而提供真正屬于個人的個性化服務。
智能涌現:用戶和一個AI主播交互的動力是什么?交互的需求真的存在嗎?
焦可:很多場景都需要語音交互。比如我在開車時聽節目,突然有個問題,我就直接打斷AI主播問他們問題,不需要停車打字去搜索。
有時你也會對某個話題感興趣,比如英特爾和英偉達的對比、去保定的旅游攻略,這些內容人類播客平臺或許沒有供給,但是AI 10秒之內就可以幫你生成定制化的節目。
我們有一個用戶,晚上聽到了一個講原生家庭的節目,有感而發跟主持人聊了很久。還有一個用戶,因為不同意主持人的觀點,跟TA激辯了300多輪。
智能涌現:產品上線后,buy in的投資人比例變高了嗎?
焦可:變高了。剩下的還是用互聯網的邏輯評判語音,覺得我們太貴。
我們不太燒錢,也不想讓股東結構太復雜。所以第二輪融資比較簡單。
智能涌現:創業過程中你焦慮過嗎?
焦可:我個人還好,因為邏輯想清楚了,做就好了。剩下的都是戰術上的問題。創業其實每天十有八九都是壞消息,不過這才叫創業,如果一帆風順,說明你已經在做被別人驗證過的事。
如果真要說有什么急迫的事,就是招人。我出來公開發聲,其實并不是為了To VC,我們剛融完一輪。
我們招人的時候就發現,很多候選人想求安穩,更愿意去大公司,或者當公務員。大家的心氣兒和13、14年那會兒是不太一樣的。
所以我出來發聲,是因為想招人!很急!
歡迎交流!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.