![]()
“我其實天生就是一個適合創業的人。”
文丨祝穎麗
編輯丨宋瑋
王詩沐最鮮明的標簽曾是前網易云音樂高管。之后,他的職業軌跡就顯得有些 “迷失”:在騰訊的幾年里,他主導過 NFT、社交電商等創新項目,執掌過騰訊新聞,但都因為業務關停、縮小或戰略調整而顯得沉寂。
2022 年,王詩沐離開騰訊,一度 “消失” 于公眾視野。但對王詩沐自己來說,過去一段時間事情一直在沿著他的路線圖往前走。
他是對內容形態很敏感的人,早在快手和抖音崛起前,他就看到了短視頻作為新范式的價值;同時也看到了視頻這種媒介的缺陷:它是單向的、被動的、讓人沉迷的。在他看來,視頻之后的下一代內容形態,應該是 3D——一種具備極強互動性和動態反饋的介質。
早在騰訊時,他就開始接觸 3D 內容。當時他負責的創新事業部,定下了三個核心點:AI、3D 和區塊鏈。在他看來,這分別代表了新的生產力、新的介質和新的生產方式。
AI 加上 3D,也最終成為了他現在的事業。2022 年底,王詩沐創立了全靈(Seele)。他從零開始訓練 3D 游戲大模型,直到今年最終完成。接下來,他們還將發布一個 4D “世界模型”,讓游戲從 “渲染” 走向 “實時生成”、以及一個統一 3D 理解、生成與編輯的大模型。
如今,搭載他們自研模型的網頁產品 Seele 已能實現分鐘級生成游戲:一個簡單的跳一跳或俄羅斯方塊,幾分鐘搞定;復雜的 3D 場景和玩法,幾個小時內就能成型。目前,Seele 積累了超過 100 萬用戶,生成游戲數量超過 3 萬個。
回看過去,王詩沐遺憾自己 “出來晚了”,這種目標純粹的創造狀態令他沉迷:“我早就該創業了,我現在非常快樂。”
煉出一個 3D 游戲模型
游戲早就證明了 3D 的吸引力:強互動、高沉浸、參與感極強,但 3D 內容過去沒有長出 “平臺”,是因為制作門檻太高了。
過去二十年,3D 幾乎等同于 PGC(Professionally Generated Content 專業生產內容)。一個像樣的 3D 游戲,動輒上億成本、百人團隊。UGC (User Generated Content 用戶生產內容)在這個世界里幾乎沒有生存空間。
王詩沐一直在思考,能不能把 3D 內容的生產門檻降低。2022 年底他離職創業,在大語言模型尚產品尚未面世前,就已經開始研究 “如何讓 3D 內容規模化生產”。
那時能用的技術非常原始:GAN(對抗生成網絡)、強化學習。做得很慢,也很重,且生成的模型 “泛化性” 極差——比如做完一個歐洲人模型,要切換到亞洲人或動物,幾乎得重頭再來。
很快,大語言模型的爆發徹底改變了規則。用基于 Transformer 的自回歸模型(時間序列的統計方法)來做 3D 模型的訓練,能將生產效率提高 100 倍不止。
然而,訓練這套 3D 游戲大模型面臨一個 “冷啟動” 障礙:數據。
互聯網上遍地是文本和代碼,但高質量的 3D 游戲數據,包括 3D 模型、動畫序列、腳本代碼,極其稀缺,且分散在藝術家手中。為了解決這個問題,全靈團隊采取了一個巧妙的產品策略:他先做了一個名為 koko 的應用。
koko 是一個 3D 虛擬人工具,用戶可以上傳 3D 模型,生成一個可以對話、跳舞的 Avatar(化身)。當時 Chatbot 類型的應用 正在大火,團隊利用這個時機,迅速就吸引了三千多位擁有高質量 3D 數據的創作者,并以此積累了最原始的 3D 數據。
但拿到數據只是第一步,真正的難題在于如何處理。在 3D 領域,數據的復雜程度遠超文本和圖片。一個 3D 模型不僅包含幾何結構,還包含材質、骨骼動畫、物理屬性以及它在空間中的交互邏輯。
為此,公司內部甚至專門建立了一個近百人的數據團隊,“你很難想象,一家創業公司會有一個上百人的數據團隊(含外包和實習生)。”
通過 koko 積累的數據,團隊高精度的標注與清洗,Seele 最終在 2023 年底開始了正式訓練,經過一年多的迭代,2025 年 5 月,Seele 游戲大模型第一代誕生了,基于此的產品 “Seeles.ai” 也正式上線。
自此,用戶只需要輸入一段文字,通過與 AI 自然語言交互就能得到一個可運行的游戲。
目前這個模型能力還在初期,王詩沐將之定義為 “L1 階段”,智能水平還只能生成簡單的預覽版游戲。他預計,大約到 2026 年上半年,其能力上限就可以做出類《動物森友會》級別的復雜游戲;到 2029 年,能做出 《頭號玩家》級別的全沉浸式世界。
技術驅動的產品
對于王詩沐來說,做 Seele 與當年做網易云音樂有本質區別。
網易云靠的是市場敏銳度、是對用戶的洞察;而 Seele 的底色是技術。對技術理解的深度,不僅會直接影響產品的鍛造,還會影響運營以及商業化等方方面面。
不同于行業目前普遍采用的 “AI+工具鏈” 模式——利用模型能力輔助現有工作流進行提效,Seele 相信未來模型的能力足以支撐起商業級游戲的完整生成。因此,他們不想止步于單點工具的開發,而是自研底層模型,試圖讓用戶僅通過多輪對話造出完整的游戲,實現從靈感到完整游戲的 “端到端” 創造。
另一個認知是,他們看到,當自回歸大模型訓練出來后,只要持續迭代下去,未來的邊際成本會越來越低。
目前 AI 行業普遍面臨一個困境:成本無法收斂。一千個用戶生成一千張圖或一段視頻,每一幀都是新的推理消耗。
但 Seele 的游戲模型邏輯不同,“游戲是解耦的,一個用戶跑步的視頻,你沒辦法把里面的人背景,跑步的動作都分離出來,但是游戲是可以的,因為游戲本質上是分離的數據。”
王詩沐解釋,他們的用戶如果生成相似的射擊游戲,里面的建筑、槍械、地圖的是多模態對齊的資產;而當另一個用戶要做跑酷游戲時,相似風格的建筑資產也是可以復用的。這種資產復用帶來的 “成本收斂”,讓 Seele 生成一個復雜游戲的邊際成本降到了幾美金。
目前,Seele 主要還主要以會員訂閱來收費,但在未來,隨著創造一款游戲的成本降到更低,團隊不希望不再從用戶手上收使用產品的錢,而是通過廣告分成來實現商業化。
比如,平臺通過會算法篩選優質游戲、再進行分發,而創作者就可以通過在游戲中植入廣告獲得收入分成。
“天生適合創業的人”
雖然在大公司做到高管,但王詩沐更愿意定義自己為一個 “天生適合創業的人”。他享受創業帶來的專注感和目標感,甚至會為了 ‘身體力行’ 搞明白開公司是怎么回事,而親自去跑工商注冊。
全靈目前保持著精簡的團隊規模,正式員工僅 40 余人。未來,他們希望最上限也不要超過 1000 人。他們公司沒有專門的 HR,王詩沐親自負責最后一輪面試,決定新員工能否錄用。
為了適應大模型的飛速發展,全靈大約每個季度進行一次組織架構調整。 例如,在 2024 年,當技術實驗證明 “自回歸” 路徑優于 “擴散” 路徑后,團隊迅速取消了按模態(3D、圖像、文本、語音)劃分的方式,轉而進行整體合并。
隨著 L1 階段的游戲趨于成熟,公司準備再次調整團隊的資源分配。他們目前 70% 的人力資源在模型側;下一步,他希望加大游戲的發行和商業化的力度,預計未來組織資源分配在模型和產品商業化上將達到 1:1 。
王詩沐認為傳統的 “誠信”、“正直” 等正面價值觀是人類基本道德,無需贅述;在 Seele,他們通過規定 “紅線” 來約束組織:不要官僚主義、不要貪污腐敗 。
在 AI 創業公司普遍爭奪最聰明的人時,王詩沐對人才的思路也顯得特別。
他認為,勤奮的作用比聰明更重要;為了理解圖形學底層邏輯,他們核心團隊曾全員利用工作之外的時間,在一個月內都看完了幾十個小時的專業視頻課程(Games 101),這讓他們整個團隊都拉齊了對 AI 技術的理解。
他也不迷信頂級名校或多年資歷,而是傾向于相信年輕人的學習能力 。全靈公司里,現在就有 2024 年畢業的非名校本科生直接參與大模型訓練,并已能獨當一面。
十幾年前,剛做出網易云時,王詩沐說自己有一種 “春風得意” 的感覺,感受的是大江大河、時代洶涌的推背感;再次置身 AI 的浪潮里,他覺得自己已經淡定得多。他偶爾焦慮,但從不痛苦,因為創業帶給他的專注、自由以及掌控的 “快樂” 已經足夠多。
為呈現創業者的個人特點和保留思考的完整度,以下為部分對王詩沐的采訪問答,與正文互為補充:
晚點:你創業,選擇的為什么是 3D 游戲這個切口?
王詩沐:我看好 3D,也不只是說它的商業價值大。顯然,是我覺得 “互動” 對人類的價值是很高的。人本質上是個社交型的群居的動物,你一個東西的互動性很強,并且能打破時空限制的話,是可以大大增強人類的交互性的。
晚點:有必要自己做一個模型出來嗎?為什么你們有能力做,怎么做?
王詩沐:如果能夠廣泛降低生產成本的話,那 3D 交互會成為人們互相交流的新的想象空間。所以,怎么樣去能夠把這個互動成本趨近于 0,這是我們首要去考慮的問題。
以前人們互相發短信是一毛錢,后來發微信,你有個包月流量,這個邊際成本趨近于零了。那從終局來思考的話,要達成的是技術范式的轉變,意味著我們要選擇一個邊際成本持續往下降的技術路線。
我本科本來也是學這個計算機圖形方向的,我原來在浙大的 CAD 實驗室。
第一個就是我們自己學,我去讀了大量的論文,然后看了大量的視頻,自己一步步地去搞明白,要實現這個大模型到底需要什么東西,有哪些模塊。
也去找對應的,能做出這樣技術路線的人才,能力圖譜就是理解大模型結合游戲,但對游戲的理解,不需要特別深,尤其忌諱太深。
因為如果你是一個游戲行業非常資深的人,會覺得我們這個做法有點太搞笑或者是太小兒科,一開始是絕對出不來高質量的東西的。
晚點:從產品經理到自己做模型,是個轉型嗎?
王詩沐:我對自己的定義不是一個產品經理,我不喜歡給人打標簽,也不給自己打標簽。我覺得做產品是一項綜合能力,包括原來我在網易云音樂的時候,我很早就開始搞算法。
網易音樂一開始的那個私人 FM 的算法,我還自己寫,還去看過 meta 所謂的信息流推薦,我覺得一個好的產品經理要有很綜合的能力,不只是說我調研一下用戶需求、市場需求,寫一下 PRD,到后面他需要有很好的架構能力,商業思想,還有技術理解能力。
你的綜合能力越強,你才能操這個盤,所以我肯定是很勤奮努力的。
晚點:你們想用 AI 降低生產 3D 游戲的門檻,但有那么多用戶有創造游戲的需求嗎?而且它似乎比做一個視頻對能力要求更高?
王詩沐:游戲門檻是不是會更高?不會。電子游戲是經過專業人士是去制作的,它的制作、程度非常復雜,因此你會覺得這個游戲我肯定做不出來。但你對一個小孩說跳房子,他只要看別人跳過一遍,馬上會跳。打彈珠也是。
游戲互動是人類的天性,仔細想想看,從我們小時候出生開始,什么東西不用教,你只要是個人你就能學會的?
嬰兒從小就會摸,會玩,會跟周圍環境互動,互動是人類的天性。
晚點:但 “互動” 是游戲嗎?
王詩沐:其實游戲是非常寬泛的。為什么最早的時候把它定義成 “第七藝術”,現在可能大家不怎么提了,反而越來越往 3A 游戲這個方向去靠?這個是個資本化的結果,我不否認。
但是一旦游戲的生產門檻降低,你時空打破了,自然會有更好玩的內容,會有大量的個性化的內容涌現出來。
晚點:你們現在游戲大模型能力下,上限能做到什么?
王詩沐:坦白講,我們目前整個游戲大模型的技術還在起步偏起步階段。現在平臺上,超越我們認知的,一個是有用戶做出來一個挺好玩的第一人稱射擊游戲;一個開放世界游戲。
晚點:你現在怎么回想在網易的經歷?
王詩沐:我自己其實比較少去想。那個時候確實很年輕,我是 86 年的人,網易云上線的時候,我 26 歲,網易云產品負責人,確實是有一種春風得意的感覺。
到了 2016 年,我 30 歲的時候,整個網易云也做起來了,后面的整個增長勢能也是挺好的。我也沒有覺得榮耀或者是什么,可能比較喜歡沉浸在做產品的感受中。
那個時候做網易云,我覺得很強的感受是大江大河、整個時代潮流在洶涌;現在,我仍然處于時代洪流之中,但是我淡定很多,我能夠很清晰感受到這個潮水的浮浮沉沉,但整個人會看得更加清楚,心智會更加堅定。
晚點:你在騰訊獲得了什么?
王詩沐:有更多創新的機會。我在騰訊是開始從零去做孵化器,要從戰略層面思考,比如為什么選 3D,當時找了幾個關鍵點,我是逐層一點一點去摸索,從零開始。
在網易云音樂,我雖然是早期的員工,但是網易做音樂這件事情并不是我決策的,這個是丁老板決策的,我是個執行者,但是到了騰訊,我要去想做什么?應該怎么做?還有沒有機會和價值?
這個過程中就會更進一步,中間也會有很多的困難和挫折,然后再復盤。
晚點:在騰訊的幾個產品(小鵝拼拼、幻核)都關了,你覺得算是失敗嗎?
王詩沐:如果純粹從產品角度上來講,那當然是失敗了,對吧?因為最終下線了。
但我能夠辯證地看。因為騰訊是一家很大的公司,他的戰略決策不是以產品為單元的。比如說,騰訊需不需要需要電商,我覺得是需要的,但騰訊需不需要小鵝拼拼我覺得要打個問號。所以我會拆分來看。
包括像幻核也是,我們當時做了半年的時間,營收很可觀,其實對于創業公司來講不得了,但對騰訊這種體量的公司來說,新業務場景還在早期探索階段、合規邊界尚在確立中,所以他要有一個調整,我也可以理解。
晚點:從大公司做管理,到自己創業,你發生了什么變化?
王詩沐:我從來不覺得自己是大公司里 “典型” 的人,我其實天生就是一個適合創業的人。我只是陰差陽錯。因為我在內陸環境生長起來的,年輕的時候膽子沒那么大,眼界沒那么開。
我二十來歲的時候,樹立的理想是做個產品總監,年薪 10 萬。這個是真事兒,我跟我爸媽都講過。
我后面到了 30 歲左右,才開始更加了解自己,我真正人生想追求的并不是金錢,或者是純粹的地位,我就是喜歡創新、創造,所以我就應該創業。
22 年下半年出來創業的時候,我第一個感受是我創業晚了。我早就該創業,16 年就應該創業。
我現在非常快樂,我快樂不是指自己多成功,而是指我整個人的生活狀態,我很享受。我并不覺得這些困難、苦惱讓我難受。我記得我沒創業之前,看到一些文章,有很多人焦慮什么的,我也會焦慮,但是我從來不痛苦。
晚點:你覺得自己是是個什么樣的創始人?
王詩沐:親力親為。我們公司現在沒有 HR,HR 就是我,然后有一個財務同學是今年才入職。
最開始那個公司的工商注冊,包括融資都是我自己去跑的,就是給公司省錢。當然不是說我摳門到幾百塊錢都不愿意出,而是我不覺得這個東西是浪費我的時間、浪費我的精力。
我反而身體力行,覺得得搞明白公司工商實際上它是個什么東西。我覺得這個應該去做,我們公司現在大概 50% 的員工都是我過往十多年老同事,阿里的、網易的、騰訊的大家互相都有所了解。
題圖來源:Seele 創始人王詩沐
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.