![]()
作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com
1
2023年,AI行業的融資低谷年。脫胎于上海科技大學MARS實驗室的影眸科技也遇到了自己的“危機”。這家公司的兩位創始人吳迪和張啟煊,當時一個剛畢業,一個還是研究生。
一家已經談好、SPA協議都已完成的領投機構,因為當時地緣政治對投資機構的沖擊而在簽字前幾周臨時撤回投資。而影眸當時公司賬上只剩下8個月的資金。
解決方案是有的,甚至是顯而易見的:他們最早的商業化項目——那個在這家公司辦公室擺放著的無法忽視的巨大球形掃描儀“穹頂光場”,是一個有穩定需求的服務。它為3A游戲和電影公司掃描人像,每年能帶來可觀收入,靠它活下去沒啥問題。
但團隊能感覺到,元宇宙概念市場在萎縮,項目制的服務也很難規模化。而更重要的是,它并不是這家公司最想做的事情。
在最初創辦這家公司時,雖然不確定具體要做什么,但年輕的創始團隊的大目標是讓所有人都能用到3D,比如,做出一個home studio。而在影眸看來,在所謂的元宇宙里,顯然普通用戶大多只是旁觀者,但他們希望的是讓每個人可以成為創造者,這最終需要靠3D生成,需要一次更徹底的底層技術創新。隨著AI生成3D因為大模型的進步而熱鬧起來,這個底層技術創新指向一個全新的模型。
于是一個神奇的決定出現了:在公司“彈盡糧絕”的危機下,創始團隊卻決定賭一把——
訓練一個當時沒人做出來過的原生3D模型。
他們能調用的資源有限,時間上也只夠選擇一條路徑。這基本就是一次訓練機會,成功就成功,失敗(訓不出來)基本就沒有第二次機會了。
Go big,or go home。
然后Rodin的訓練就開始了。
2
這個模型在當時算是異類。當時做3D生成最主流的方向,是先通過“文生圖”的模型生成各個角度的圖像,再合成一個3D模型,即“2D升維”。影眸的同行幾乎都選擇了這條路。
然而事實上,在2D圖像生成大火之前,3D領域原本的主流就是在走3D數據原生訓練的路線。只是突然2D技術太強了,導致“2D升維”成了熱點。
影眸脫胎于上科大。2020年,吳迪剛讀研一,張啟煊還是大三,兩人一起在學校里開始創業。
吳迪是上科大最早的一批學生,這所帶點實驗性質的年輕大學,給學生提供了獨特的空間。作為學生會主席,吳迪能直接跟校領導匯報、申請經費,參與搭建實驗室。張啟煊在學校也閑不下來,到處打比賽,并在本科就進入了MARS(Multi-disciplinary Artificial Reality Studio)實驗室。也因此認識了吳迪。
這些計算機科學方向的學生,同時也對Blender等3D軟件以及3D技術癡迷,當時吳迪和張啟煊在學校主要在做的項目,就是那個巨大的“穹頂光場”,它并非簡單的相機陣列拍攝多角度照片,而是基于“光度立體法”(Photometric Stereo),能在0.1秒內向掃描對象投射二三十種不同的光照模式,算出整個面部細微的法線信息,甚至引入“偏振態”光線來解耦高光材質,從而采集到遠超傳統方式的超細膩皮膚細節。
![]()
2020年,公司成立后他們開始各種摸索,當時他們基于實驗室發表的一篇SoftGAN的論文,做了一個畫真實人物的畫板產品,但起初沒什么反響。后來他們換了一批二次元數據,做成了AI畫板APP WAND。
然后這款app就瞬間爆了,立刻就登上了中日兩國App Store圖形與設計分區的榜首,兩周獲取了160多萬用戶。

來自@taptap發現好游戲
這給他們帶來了第一波融資,在那之前,奇跡創壇的陸奇來學校參觀,看過他們的穹頂,鼓勵他們報了奇績。在APP爆火的當晚11點,奇績的人緊急聯系他們,對他們說:
“立刻跟我們簽吧”。
但他們卻快速“拋棄”了這個產品。
WAND是個像極了后來Midjourney樣貌的產品。但在當時,他們想不出來它的商業模式。而更讓他們提不起興趣的,是這個產品背后的技術——GAN。
GAN(生成對抗網絡)在當時是主流,它通過兩個網絡(生成器和判別器)相互博弈來“偽造”圖像,但在多樣性和可控性上很快遇到了瓶頸。而影眸團隊當時沒有預料到的是,另一條技術路線——Diffusion(擴散模型)即將爆發。以Stable Diffusion為代表的擴散模型,通過一個“去噪”過程逐步生成圖像,實現了前所未有的圖像質量和“言出法隨”的文本控制能力,這才是后來真正引爆AIGC浪潮的關鍵。但在當時,GAN限制了人們對圖像生成技術的想象。于是在拿到錢后,他們反而“更逆反了”。
他們去向陸奇要建議,對方回到:“你們要專注,做你們最想做的事情”。張啟煊的理解是:“你只能做一件事。”
砍掉了WAND項目后,他們繼續專注到“更廣泛更通用的3D”上。在2021年底,他們做出了ChatAvatar,一個用文字描述生成3D形象的產品。同樣,追求真實,而不是好看。這解決了“十幾萬”掃描費和“30塊”廉價角色之間的巨大需求,也是影眸開始向AI產品邁出的重要一步。
3
穹頂光場、WAND、ChatAvatar,這些技術和產品研發里的經驗最終都匯聚在了Rodin這個模型上。
2024年3月,新模型終于有了內部Demo。
訓練成功了。
Rodin模型第一次展示了原生3D路線的強大效果。這套名為Clay的原創框架希望徹底繞開行業的“主流陷阱”。當時,包括業內巨頭和看似引領著技術方向的實驗室都采用著“2D升維”路線,這本質上是一種妥協:
它們的出發點是希望利用2D圖像模型如Stable Diffusion當時取得的成果,因此選擇了使用一種叫做SDS(Score Distillation Sampling 分數蒸餾采樣)的方法來讓2D模型做3D生成過程的“老師”——一個3D數據先轉成不同切面的2D數據,交給2D模型打分,然后蒸餾反饋評估最終擬合出一個3D資產,以此訓練文字生成3D的能力。
但很顯然,這種方式不僅計算量大、速度慢,而且由于2D視角的不一致,生成的3D模型幾何結構混亂、表面粗糙,無法用于實際生產。
影眸的賭注,是“原生3D”——即模型直接在3D數據上訓練,直接生成3D模型。這是一個公認更難、但理論上效果好得多的路線。他們需要在已有工作基礎上,設計一個更優雅的架構。
首先是數據表達,他們選擇了"Vecset" (3DShape2VecSet: A 3D Shape Representation for Neural Fields and Generative Diffusion Models)這個研究里的方法,他們認為這個已有的研究,是3D數據在隱空間中的最佳表達——它像一種“長條形”的無序數據鏈,它恰好完美適配了Transformer架構。于是,在Sora帶火DiT(Diffusion Transformer)架構之前,影眸的Rodin已經在把賭注押到DiT上。“我們當時叫它Transformer with Diffusion,后來發現DiT火了后,我們在論文里也統一了它的名字。”
除此之外,團隊也做了很多工程上的工作,他們專門開發了一套“數據標準化”管線,用來“重構網格”(Remeshing)和統一來自ShapeNet、Objaverse等不同來源、質量參差不齊的數據。這是很關鍵的一步,但最初的方法需要人工標注,這本來可能是一個制約效率的大問題,但就在這時,GPT-4V出現,標注可以由模型完成。一切再次加速。
最終它的技術細節被寫進名為《CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets》的論文,這篇論文獲得了SIGGRAPH 2024最佳論文提名,并成為50年來首個入選SIGGRAPH "Real-Time Live!”的中國團隊。ResNet之父何愷明教授在當年MIT的深度生成模型課程中將CLAY列為推薦閱讀(6.S978 ,MIT EECS, Fall 2024)。
基于CLAY,影眸于2024年中上線了全球首個原生 3D 生成大模型產品Hyper3D.AI Rodin。
現在,原生3D已成為行業共識——包括騰訊混元、字節Seed3D在內的公司,都已采用3D原生技術路線。可以說,影眸定義了3D生成的“可用性拐點”。
4
2024年,影眸帶著他們的技術成果登上了GDC(全球游戲開發者大會)的講臺首次對外公開展示了還是demo的Rodin。影眸也成為少有的被官方邀請的中國初創公司。
這次分享吸引來了行業內諸多關注,影眸將Rodin模型接入了擁有5億用戶的超級頭部游戲的移動端Runtime環境,為其UGC創作賦能。
在行業中,這是一個重要的信號。它意味著影眸的AI模型不再是純粹的“Demo”工具,而是開始被真正集成到實時運行的、海量用戶的移動游戲引擎中。

玩家在游戲中使用Hyper3D.AI Rodin生成內容
“Production Ready”是影眸不停強調的目標。3D模型沒有標準的Benchmark,最終是客戶自己來判斷,用錢投票。這些真實產業環節里的合作,就是一張張最有分量的“票”。
目前影眸的商業模式也歸一到服務游戲、影視制作,以及更大一塊的工業設計,整體以專業的建模場景為主。
“3D生成對游戲公司來說是天然適合外包的業務。這是分工明確和工業化成熟的結果,所以獨立的第三方服務商是有價值的。”吳迪認為。
2024年,在Clay框架和Rodin模型的Demo跑通后,影眸的融資也順利推進。2025年以來,他們連續完成了兩輪大規模融資,前一輪由字節跳動和美團龍珠聯合領投,紅杉資本和奇績創壇跟投。
2025年8月,影眸再次宣布完成新一輪數千萬美金融資,由藍馳創投領投,字節跳動、紅杉中國種子基金等老股東跟投。
模型的成功是基礎,但這在今天已不是全部。當Rodin訓成時,AI 3D生成的賽道也已經迅速變得擁擠。諸多玩家相繼入場,競爭顯然已經進入了產品層面。
對一個普通用戶而言,影眸的產品(Hyper3D.AI)是一個網頁工具和一套插件的結合體。最基礎的體驗與Midjourney類似:輸入一段文字或一張圖片,模型就能在幾十秒到幾分鐘內生成一個3D模型。
但影眸從一開始就想解決專業人士的痛點。他們的產品提供了針對不同場景的“模型矩陣”:如“Speedy”(極速預覽)、“Focal”(極致細節)、“Zero”(適用于手游的低面數平滑模型)和Defualt(細節精度和表面平滑度平衡)。

影眸的“Production Ready”,就是更讓自己產品真正接入產業工作流。
而這種理念最直觀的體現,是他們對產品細節的偏執。其他公司的插件可能是網頁的“閹割版”,而影眸為Blender等3D軟件設計的插件,是一個“超級精巧”的浮窗。它像YouTube的畫中畫,承載了網站的全部功能,同時又不入侵藝術家原有的工作界面。
“我們幾個核心創始人都親自使用Blender等3D軟件,自己剪視頻、做渲染。”張啟煊說,“所以我們知道做這件事會遇到哪些困難,知道怎么用才方便。”
另一個最新的“殺手級”功能是BANG。
對于游戲或工業設計來說,一個“糊”在一起的AI模型無法高效完成后續的綁定和二次編輯。影眸的“Bang to Parts”功能,能自動將一個復雜的模型“爆炸拆解”為多個可編輯的部件。
這個功能的交互設計,也體現了他們對工作流的理解。張啟煊形容:“你點分件的時候,我先給你一張藍圖(預覽圖),告訴你‘我大概會拆成這樣’,你不滿意就點‘隨機’換一種方案。覺得OK了,它‘啪’一下炸開來。你還可以選中炸開的某個部分,讓它再生成這個部分的炸開藍圖……像鏈式反應一樣。”
這些“好用”的表面功能,每一項都源于底層的技術創新。BANG的背后是一套名為“通過生成式爆炸動力學實現3D資產分件”的原創架構。這項研究工作被計算機圖形學頂級期刊ACM TOG收錄,并在SIGGRAPH 2025上獲評“Top 10技術論文速覽”。它嘗試解決AI模型“只能看不能改”的難題。
影眸還是全行業第一個做出“3D ControlNet”的團隊。這套控制技術并非單一論文,而是其核心生成框架的關鍵組成部分,其“可控性”(Controllable)的理念在CLAY的論文中已有體現。就像ControlNet讓2D繪畫的“隨機抽卡”變成了“按圖索驥”,影眸的“3D ControlNet”讓開發者可以通過邊框盒(Bounding Box)、體素(Voxel)甚至點云(PointCloud)來精準控制生成模型的形態和結構,這在專業生產領域是剛需。

最近,他們上線了“部分重做”功能,即針對不滿意的部分再次重新生成,保留已經完美的部分。整體模型可控性再次大幅提升。
“我們不會基于當年什么東西最熱門來選研發方向,不會追熱點,完全基于需求做研發 。所以會看到我們論文的絕對數量肯定比友商低,但從論文質量和獲獎情況來看我們有優勢。”吳迪說。
“今年在這個領域拿Siggraph best paper 的商業化公司,也就只有谷歌、meta 和我們。”
![]()
![]()
張啟煊等人參與的CAST——一種從單張RGB圖像高質量重建三維場景的新方法,獲得2025 SIGGRAPH Best Paper
過去這一年,在Hyper3D.AI平臺上,Rodin以平均每9天上線一個新功能的速度快速更新著,更多的商業化合作也在快速鋪開。
當初那個“Go big or go home”的賭注,算是沒有失敗,而它改變了影眸也改變了AI 3D行業。
“我們希望在保持朝氣的前提下,在殘酷的商業世界里繼續摸爬滾打。”吳迪說。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.