網易首頁 > 網易號 > 正文申請入駐

訓個“逆天改命”的模型，拯救公司也順手重塑AI 3D ｜對話影眸

2025-11-24 10:07:27　來源: 硅星人

北京舉報

分享至

作者｜王兆洋
郵箱｜ wangzhaoyang@pingwest.com

2023年，AI行業的融資低谷年。脫胎于上海科技大學MARS實驗室的影眸科技也遇到了自己的“危機”。這家公司的兩位創始人吳迪和張啟煊，當時一個剛畢業，一個還是研究生。

一家已經談好、SPA協議都已完成的領投機構，因為當時地緣政治對投資機構的沖擊而在簽字前幾周臨時撤回投資。而影眸當時公司賬上只剩下8個月的資金。

解決方案是有的，甚至是顯而易見的：他們最早的商業化項目——那個在這家公司辦公室擺放著的無法忽視的巨大球形掃描儀“穹頂光場”，是一個有穩定需求的服務。它為3A游戲和電影公司掃描人像，每年能帶來可觀收入，靠它活下去沒啥問題。

但團隊能感覺到，元宇宙概念市場在萎縮，項目制的服務也很難規模化。而更重要的是，它并不是這家公司最想做的事情。

在最初創辦這家公司時，雖然不確定具體要做什么，但年輕的創始團隊的大目標是讓所有人都能用到3D，比如，做出一個home studio。而在影眸看來，在所謂的元宇宙里，顯然普通用戶大多只是旁觀者，但他們希望的是讓每個人可以成為創造者，這最終需要靠3D生成，需要一次更徹底的底層技術創新。隨著AI生成3D因為大模型的進步而熱鬧起來，這個底層技術創新指向一個全新的模型。

于是一個神奇的決定出現了：在公司“彈盡糧絕”的危機下，創始團隊卻決定賭一把——

訓練一個當時沒人做出來過的原生3D模型。

他們能調用的資源有限，時間上也只夠選擇一條路徑。這基本就是一次訓練機會，成功就成功，失敗（訓不出來）基本就沒有第二次機會了。

Go big，or go home。

然后Rodin的訓練就開始了。

這個模型在當時算是異類。當時做3D生成最主流的方向，是先通過“文生圖”的模型生成各個角度的圖像，再合成一個3D模型，即“2D升維”。影眸的同行幾乎都選擇了這條路。

然而事實上，在2D圖像生成大火之前，3D領域原本的主流就是在走3D數據原生訓練的路線。只是突然2D技術太強了，導致“2D升維”成了熱點。

影眸脫胎于上科大。2020年，吳迪剛讀研一，張啟煊還是大三，兩人一起在學校里開始創業。

吳迪是上科大最早的一批學生，這所帶點實驗性質的年輕大學，給學生提供了獨特的空間。作為學生會主席，吳迪能直接跟校領導匯報、申請經費，參與搭建實驗室。張啟煊在學校也閑不下來，到處打比賽，并在本科就進入了MARS（Multi-disciplinary Artificial Reality Studio）實驗室。也因此認識了吳迪。

這些計算機科學方向的學生，同時也對Blender等3D軟件以及3D技術癡迷，當時吳迪和張啟煊在學校主要在做的項目，就是那個巨大的“穹頂光場”，它并非簡單的相機陣列拍攝多角度照片，而是基于“光度立體法”（Photometric Stereo），能在0.1秒內向掃描對象投射二三十種不同的光照模式，算出整個面部細微的法線信息，甚至引入“偏振態”光線來解耦高光材質，從而采集到遠超傳統方式的超細膩皮膚細節。

2020年，公司成立后他們開始各種摸索，當時他們基于實驗室發表的一篇SoftGAN的論文，做了一個畫真實人物的畫板產品，但起初沒什么反響。后來他們換了一批二次元數據，做成了AI畫板APP WAND。

然后這款app就瞬間爆了，立刻就登上了中日兩國App Store圖形與設計分區的榜首，兩周獲取了160多萬用戶。

來自@taptap發現好游戲

這給他們帶來了第一波融資，在那之前，奇跡創壇的陸奇來學校參觀，看過他們的穹頂，鼓勵他們報了奇績。在APP爆火的當晚11點，奇績的人緊急聯系他們，對他們說：

“立刻跟我們簽吧”。

但他們卻快速“拋棄”了這個產品。

WAND是個像極了后來Midjourney樣貌的產品。但在當時，他們想不出來它的商業模式。而更讓他們提不起興趣的，是這個產品背后的技術——GAN。

GAN（生成對抗網絡）在當時是主流，它通過兩個網絡（生成器和判別器）相互博弈來“偽造”圖像，但在多樣性和可控性上很快遇到了瓶頸。而影眸團隊當時沒有預料到的是，另一條技術路線——Diffusion（擴散模型）即將爆發。以Stable Diffusion為代表的擴散模型，通過一個“去噪”過程逐步生成圖像，實現了前所未有的圖像質量和“言出法隨”的文本控制能力，這才是后來真正引爆AIGC浪潮的關鍵。但在當時，GAN限制了人們對圖像生成技術的想象。于是在拿到錢后，他們反而“更逆反了”。

他們去向陸奇要建議，對方回到：“你們要專注，做你們最想做的事情”。張啟煊的理解是：“你只能做一件事。”

砍掉了WAND項目后，他們繼續專注到“更廣泛更通用的3D”上。在2021年底，他們做出了ChatAvatar，一個用文字描述生成3D形象的產品。同樣，追求真實，而不是好看。這解決了“十幾萬”掃描費和“30塊”廉價角色之間的巨大需求，也是影眸開始向AI產品邁出的重要一步。

穹頂光場、WAND、ChatAvatar，這些技術和產品研發里的經驗最終都匯聚在了Rodin這個模型上。

2024年3月，新模型終于有了內部Demo。

訓練成功了。

Rodin模型第一次展示了原生3D路線的強大效果。這套名為Clay的原創框架希望徹底繞開行業的“主流陷阱”。當時，包括業內巨頭和看似引領著技術方向的實驗室都采用著“2D升維”路線，這本質上是一種妥協：

它們的出發點是希望利用2D圖像模型如Stable Diffusion當時取得的成果，因此選擇了使用一種叫做SDS（Score Distillation Sampling 分數蒸餾采樣）的方法來讓2D模型做3D生成過程的“老師”——一個3D數據先轉成不同切面的2D數據，交給2D模型打分，然后蒸餾反饋評估最終擬合出一個3D資產，以此訓練文字生成3D的能力。

但很顯然，這種方式不僅計算量大、速度慢，而且由于2D視角的不一致，生成的3D模型幾何結構混亂、表面粗糙，無法用于實際生產。

影眸的賭注，是“原生3D”——即模型直接在3D數據上訓練，直接生成3D模型。這是一個公認更難、但理論上效果好得多的路線。他們需要在已有工作基礎上，設計一個更優雅的架構。

首先是數據表達，他們選擇了"Vecset" （3DShape2VecSet: A 3D Shape Representation for Neural Fields and Generative Diffusion Models）這個研究里的方法，他們認為這個已有的研究，是3D數據在隱空間中的最佳表達——它像一種“長條形”的無序數據鏈，它恰好完美適配了Transformer架構。于是，在Sora帶火DiT（Diffusion Transformer）架構之前，影眸的Rodin已經在把賭注押到DiT上。“我們當時叫它Transformer with Diffusion，后來發現DiT火了后，我們在論文里也統一了它的名字。”

除此之外，團隊也做了很多工程上的工作，他們專門開發了一套“數據標準化”管線，用來“重構網格”（Remeshing）和統一來自ShapeNet、Objaverse等不同來源、質量參差不齊的數據。這是很關鍵的一步，但最初的方法需要人工標注，這本來可能是一個制約效率的大問題，但就在這時，GPT-4V出現，標注可以由模型完成。一切再次加速。

最終它的技術細節被寫進名為《CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets》的論文，這篇論文獲得了SIGGRAPH 2024最佳論文提名，并成為50年來首個入選SIGGRAPH "Real-Time Live!”的中國團隊。ResNet之父何愷明教授在當年MIT的深度生成模型課程中將CLAY列為推薦閱讀(6.S978 ,MIT EECS, Fall 2024)。

基于CLAY，影眸于2024年中上線了全球首個原生 3D 生成大模型產品Hyper3D.AI Rodin。

現在，原生3D已成為行業共識——包括騰訊混元、字節Seed3D在內的公司，都已采用3D原生技術路線。可以說，影眸定義了3D生成的“可用性拐點”。

2024年，影眸帶著他們的技術成果登上了GDC（全球游戲開發者大會）的講臺首次對外公開展示了還是demo的Rodin。影眸也成為少有的被官方邀請的中國初創公司。

這次分享吸引來了行業內諸多關注，影眸將Rodin模型接入了擁有5億用戶的超級頭部游戲的移動端Runtime環境，為其UGC創作賦能。

在行業中，這是一個重要的信號。它意味著影眸的AI模型不再是純粹的“Demo”工具，而是開始被真正集成到實時運行的、海量用戶的移動游戲引擎中。

玩家在游戲中使用Hyper3D.AI Rodin生成內容

“Production Ready”是影眸不停強調的目標。3D模型沒有標準的Benchmark，最終是客戶自己來判斷，用錢投票。這些真實產業環節里的合作，就是一張張最有分量的“票”。

目前影眸的商業模式也歸一到服務游戲、影視制作，以及更大一塊的工業設計，整體以專業的建模場景為主。

“3D生成對游戲公司來說是天然適合外包的業務。這是分工明確和工業化成熟的結果，所以獨立的第三方服務商是有價值的。”吳迪認為。

2024年，在Clay框架和Rodin模型的Demo跑通后，影眸的融資也順利推進。2025年以來，他們連續完成了兩輪大規模融資，前一輪由字節跳動和美團龍珠聯合領投，紅杉資本和奇績創壇跟投。

2025年8月，影眸再次宣布完成新一輪數千萬美金融資，由藍馳創投領投，字節跳動、紅杉中國種子基金等老股東跟投。

模型的成功是基礎，但這在今天已不是全部。當Rodin訓成時，AI 3D生成的賽道也已經迅速變得擁擠。諸多玩家相繼入場，競爭顯然已經進入了產品層面。

對一個普通用戶而言，影眸的產品（Hyper3D.AI）是一個網頁工具和一套插件的結合體。最基礎的體驗與Midjourney類似：輸入一段文字或一張圖片，模型就能在幾十秒到幾分鐘內生成一個3D模型。

但影眸從一開始就想解決專業人士的痛點。他們的產品提供了針對不同場景的“模型矩陣”：如“Speedy”（極速預覽）、“Focal”（極致細節）、“Zero”（適用于手游的低面數平滑模型）和Defualt（細節精度和表面平滑度平衡）。

影眸的“Production Ready”，就是更讓自己產品真正接入產業工作流。

而這種理念最直觀的體現，是他們對產品細節的偏執。其他公司的插件可能是網頁的“閹割版”，而影眸為Blender等3D軟件設計的插件，是一個“超級精巧”的浮窗。它像YouTube的畫中畫，承載了網站的全部功能，同時又不入侵藝術家原有的工作界面。

“我們幾個核心創始人都親自使用Blender等3D軟件，自己剪視頻、做渲染。”張啟煊說，“所以我們知道做這件事會遇到哪些困難，知道怎么用才方便。”

另一個最新的“殺手級”功能是BANG。

對于游戲或工業設計來說，一個“糊”在一起的AI模型無法高效完成后續的綁定和二次編輯。影眸的“Bang to Parts”功能，能自動將一個復雜的模型“爆炸拆解”為多個可編輯的部件。

這個功能的交互設計，也體現了他們對工作流的理解。張啟煊形容：“你點分件的時候，我先給你一張藍圖（預覽圖），告訴你‘我大概會拆成這樣’，你不滿意就點‘隨機’換一種方案。覺得OK了，它‘啪’一下炸開來。你還可以選中炸開的某個部分，讓它再生成這個部分的炸開藍圖……像鏈式反應一樣。”

這些“好用”的表面功能，每一項都源于底層的技術創新。BANG的背后是一套名為“通過生成式爆炸動力學實現3D資產分件”的原創架構。這項研究工作被計算機圖形學頂級期刊ACM TOG收錄，并在SIGGRAPH 2025上獲評“Top 10技術論文速覽”。它嘗試解決AI模型“只能看不能改”的難題。

影眸還是全行業第一個做出“3D ControlNet”的團隊。這套控制技術并非單一論文，而是其核心生成框架的關鍵組成部分，其“可控性”（Controllable）的理念在CLAY的論文中已有體現。就像ControlNet讓2D繪畫的“隨機抽卡”變成了“按圖索驥”，影眸的“3D ControlNet”讓開發者可以通過邊框盒（Bounding Box）、體素（Voxel）甚至點云（PointCloud）來精準控制生成模型的形態和結構，這在專業生產領域是剛需。

最近，他們上線了“部分重做”功能，即針對不滿意的部分再次重新生成，保留已經完美的部分。整體模型可控性再次大幅提升。

“我們不會基于當年什么東西最熱門來選研發方向，不會追熱點，完全基于需求做研發。所以會看到我們論文的絕對數量肯定比友商低，但從論文質量和獲獎情況來看我們有優勢。”吳迪說。

“今年在這個領域拿Siggraph best paper 的商業化公司，也就只有谷歌、meta 和我們。”

張啟煊等人參與的CAST——一種從單張RGB圖像高質量重建三維場景的新方法，獲得2025 SIGGRAPH Best Paper

過去這一年，在Hyper3D.AI平臺上，Rodin以平均每9天上線一個新功能的速度快速更新著，更多的商業化合作也在快速鋪開。

當初那個“Go big or go home”的賭注，算是沒有失敗，而它改變了影眸也改變了AI 3D行業。

“我們希望在保持朝氣的前提下，在殘酷的商業世界里繼續摸爬滾打。”吳迪說。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.