整理/文杰
導語
別讓人給AI擦屁股。
在游戲行業,有一類工作很少被討論,卻吞掉了大量時間和預算。
它不是玩法,不是關卡,也不是大家更常談及的美術風格。而是美術管線中后段那些東西:重拓撲、展 UV、刷權重、綁定骨骼……
一個角色高模雕得再漂亮,底層布線有問題的話,一做動畫就穿幫。接下來就是漫長的回退:改拓撲,重新 UV、貼圖、綁定、動畫,牽一發動全身。這些活兒往往創意成分不高,但恰恰決定了一個 3D 資產能不能真正走進生產。
過去兩年 AI 圖片和視頻把大家的預期拉得很高,AI 3D 自然就成了下一個被期待的東西。
做的人不少,好看的 demo 也不少,但真正要在生產里用這些模型的人心里清楚,從可用,到真正的好用、易用還有不短的距離。很多高模看著挺唬人,放進管線過不了第一關。底層網格是一團沒有邏輯的碎面,編輯不了,實時渲染扛不住,動畫就更不用想了。
“長得像 3D ”跟“真正能用的 3D ”之間到底差了什么?這個鴻溝有沒有人真的在跨?
這期 405 游局播客邀請到 VAST 首席科學家曹炎培。
VAST 成立于 2023 年,核心方向是 AI 3D 大模型和世界模型,近期剛完成由阿里和恒旭資本聯合領投的 5000 萬美元 A 輪融資。旗下產品 Tripo 已經在行業里有過不少落地應用。
他們今年 3 月剛發布的 Tripo P1.0 主打的不是“更好看”而是“原生可用”,追求在 2 秒內直接輸出拓撲干凈、可以進引擎的標準低模網格。
能用只是第一步,資產還得能動、能交互。接下來要攻的是綁定和動畫的自動生成,再往后是讓資產本身具備行為邏輯。沿著這條線走下去,就到了世界模型:不只造東西,而是造一個東西們能在里面運轉的世界。近期他們也公布了世界模型方向的早期研究,據說首款世界模型快了。
曹炎培是這些模型背后的技術負責人,清華本科和博士出身,此前曾在騰訊領導生成式 3D 研究。
在將近一個半小時的對話里,他用一個“紙扎燈籠”的比喻把 3D 資產的構成講得挺明白:網格、拓撲、UV、骨骼各自在干什么,傳統管線里為什么返工不斷。也沒藏著掖著現在的短板:拓撲的問題基本解決了,但綁定和動畫離 production ready 還有段距離。
不過正因為 3D 這條路確實更難走,他對路線選擇的判斷反而更值得留意:大多數研究者在押注視頻作為通向世界模型的主路徑,他覺得這是在拿降維后的投影當原生信號。而 3D 才是物理世界本來的表征方式,長期價值被嚴重低估了。
而在路線之外,他還拋了一個更大的問題:要是一天能生成 10 萬個資產,你還會做跟今天一樣的游戲嗎?
或許在 3D 生成的門檻真正降到足夠低之后,互動娛樂領域會出現一些新的東西。
以下是游戲茶館經授權整理的完整對話,內容經編輯。
01
從“看起來像”到“真的能用”, 3D 到底難在哪?
“圖片視頻只是一層 2D 像素的皮,而 3D 模型必須有精確的結構、合理的拓撲、骨骼,能在引擎里算物理碰撞,這中間隔著一條巨大的鴻溝。”
筱寧:這兩年大家看了很多 AI 圖片、AI 視頻,但再往前走一步,3D 其實是一個更關鍵也更難的話題——它不只是生成一個東西,而是要真正進入游戲和內容生產的流程。
今天我們想把問題問得更具體:AI 3D 到底難在哪?一條真正能進入生產的管線要經過哪些步驟?行業今天走到哪了?
曹炎培:你非常精準地戳到了 3D 生成領域的痛點。過去一兩年,不管是 Sora 還是 Seedance,還有各種圖片生成和編輯的 AI,大家已經被震撼的視覺效果“慣壞了”,覺得 3D 生成不應該也是順理成章的事嗎?但做游戲或 3D 互動的從業者會知道,“長得像 3D”和“真正能在引擎里用的 3D 資產”之間,隔著一條很大的鴻溝。圖片視頻只是一層 2D 像素的“皮”,而 3D 模型必須有精確的結構、拓撲布線,有骨骼,能在引擎里算物理碰撞等等。
我們 Tripo 過去幾年就聚焦這一件事:怎么讓 AI 生成的不再是“中看不中用”的視覺幻象,而是真正能幫美術設計師、開發者在幾秒內就生成可用于游戲引擎或 Maya 等 DCC 里做動畫、做交互的工業級資產。前段時間我們也發布了 Tripo H3.1 和 P1.0,在底層架構上做了范式級的重構,很高興借這個機會和大家深入探討 AI 3D 背后的技術邏輯。
筱寧:我們的聽眾里很多是游戲從業者,但哪怕是從業者,可能策劃、程序會多一點,真正特別了解 3D 管線的人未必多。我們一點點拆開來聊,從底層看,一張圖、一個視頻和一個真正能用的 3D 資產,最根本的區別是什么?
曹炎培:最核心的差異在于數據表征的本質不同。生成圖片或視頻,神經網絡處理的是極其規則、致密的像素矩陣——AI 只需要在固定的格子里填上每個格子的顏色就行。但 3D 在本質上是空間里稀疏的、甚至是非歐幾里得空間的結構。AI 不只要確立成千上萬個頂點的位置,還要構建頂點之間的連接關系——也就是“網格拓撲”。
2D 模型學的是平面上光影的統計規律,現在已經能畫出非常逼真的光影效果,但本質上是一種“視覺欺騙”,背后沒有真正的三維實體。而一個物體要在三維空間里成立,表面需要連續準確的表示,此外還需要完備的結構和功能性。從擬合 2D 光影規律跨越到構筑嚴謹的物理和拓撲邏輯,不只是數學機理的問題,在神經網絡和生成模型的設計上都需要更多考量。
筱寧:網格、拓撲、UV、骨骼綁定,能不能用最不學術的話解釋一下為什么重要?
曹炎培:想象 3D 模型就是一個紙扎的燈籠。網格就是燈籠外殼的紙片拼出的形狀。拓撲就是紙片怎么拼接連接,對應到人體就像肌肉走向。拓撲為什么難、影響為什么大?因為拓撲不好模型就沒法動,就像肌肉亂長一彎胳膊就撕裂了,做動畫時模型會像一團紙被揉碎。UV就是怎么把立體表面像剝橘子皮一樣攤到 2D 平面上——UV 太碎的話畫貼圖的藝術家就崩潰了,表面支離破碎,邊界永遠對不上。骨骼綁定(Rigging)就是給燈籠里面塞一層能動的金屬骨架,規定哪幾根骨架牽扯哪幾塊紙片,讓燈籠動起來。
筱寧:還挺形象的。先把 AI 拋開,傳統 3D 管線中一般怎么工作?哪些環節最花時間?
曹炎培:以次世代游戲流程為例:先有原畫設定,然后雕刻建模師構造極其精細但面數很高的“高模”。再做重拓撲,在高模上用精簡規則的多邊形布線覆蓋形成“低模”。有了低模就展 UV 、畫貼圖,再施加骨骼、刷權重,最后交給動畫師。
最花時間的就是重拓撲和綁定,藝術創意成分很少,本質是繁雜的人工勞動。而且綁定和動畫是非常容易產生痛苦返工的節點,很多時候只有把資產交給動畫師讓角色動起來,才發現彎腰或打拳時拓撲布線有問題。因為整個是線性工作流,改了拓撲就要重新 UV 、重新貼圖、再綁定、再做動畫,牽一發動全身。
02
不讓人給 AI 擦屁股,一個模型從生成到進廠的全過程
“P 1.0 背后的底層哲學是: AI 現階段需要適應人類積累了幾十年的工業標準,而不是讓人類給 AI 生成的模型擦屁股。”
筱寧:前兩年講 AI 3D 的時候,會有一種感覺:所有人都在做你說的“第一步”,就是生成精美的高模。但按你剛才的解釋,好像大家還沒深入到真正核心的問題?
曹炎培:你這觀點非常對。我們首先針對的就是前兩年被很多人忽略的網格拓撲問題。外行只看模型像不像,但工業界的模型師或技術美術拿到模型第一件事,可能就是按快捷鍵切到線框模式看底層線框對不對。如果 AI 給到的是一團密密麻麻沒有邏輯的三角形,這是一個非常重的資產,編輯和實時渲染的性能挑戰都很大,動畫階段也很難直接用,高模不符合現有的工業管線。
我們的P1.0想解決的就是怎么生成管線可用的低模,我們叫它“原生可用”的資產。到今天我們覺得 AI 3D 確實也是時候從“只能生成概念驗證的高模”跨入“真正的生產力兌現期”了。
P1.0 背后的底層哲學是:AI 現階段需要適應人類積累幾十年的工業標準,而不是讓人類給 AI 生成的模型擦屁股。模型生成出來那一刻,就是四邊形為主、布線合理、造型準確的標準網格,出圖即用。從高模到拓撲,再到 UV 和貼圖,基本可以直接丟進 UE 引擎或 Maya 里做動畫、做模擬。
筱寧:“原生可用”意味著它能在幾個關鍵環節被編輯,以及可以直接進入生產流?
曹炎培:是的,更多是直接進入工作流,而不需要很多人為修復。如果 AI 花 2 分鐘甚至 10 分鐘生成了一個模型,但因為拓撲亂七八糟,還需要非常有專業修養的美術花大半天清理頂點、重新拓撲,那 AI 到底是提效工具還是增加返工成本,就很難界定了。
筱寧:我聽到過兩種解決 3D 流程的思路:一種是單點逐個突破,另一種有點像一次性覆蓋所有環節。這兩者的優勢分別在哪?
曹炎培:我的看法是:單點上肯定是突變的——某天某個技術突然就能用了;但整個管線的融入是漸進式的。比如手動重拓撲和手工展 UV 這類機械性工作,P1.0 已經很逼近突破點,可能很快就會被 AI 接管。但在較長時間里,生成的模型依然需要以標準格式在標準流程之間流轉。我們不想完全改變大家使用引擎的習慣,而是替代掉每個環節產出資產的方式。技術突破是突變的,但每個突破回歸到生產中,我們還是希望漸進融入管線。
筱寧:那這種漸進融入會怎么發生? AI 和人會是什么樣的協作方式?
曹炎培:我們從兩方面思考。一方面,對專業流程,希望用 AI 把拓撲、綁定這種最沒有藝術創意、最繁復的環節盡可能徹底替代掉,讓大家的精力聚焦在真正需要創意的環節上。
另一方面,AI 3D 技術更廣闊的空間可能在于之前沒接觸過 3D 管線、甚至不知道什么是 3D 模型的大眾。一旦 AI 能覆蓋整個管線,終端用戶根本不需要圖形學的概念,不需要知道美術資產的制作流程。就像你從網上下一個 icon 不會關心是 AI 還是 PS 做的,下一個 SVG 動畫也不會關心怎么來的。3D AI 在端到端能力上也需要給普通用戶帶來這種極低門檻的改造,讓大家不覺得 3D 是一種神秘或小眾的表現形式,才有可能涌現出更廣泛的 UGC 生態。
筱寧:今天真正會用到 3D 資產的還是動畫、游戲、獨立開發者。什么樣的人接受了 AI 3D?什么樣的公司還比較保守?
曹炎培:現在獲得最大價值的肯定是中小型甚至獨立游戲團隊,以及做 UGC 平臺或程序化生成的團隊。大型 3A 團隊有龐大美術預算,對改變管線的態度比較謹慎。但中小團隊很多時候是“點子大于產能”。美術資源匱乏是限制他們快速發展和表達核心創意的巨大瓶頸。AI 3D 給了他們一個很好的杠桿,以極低成本構建出原本需要幾十人美術團隊才能填滿的世界。
以 P1.0 來講,在環境道具(props)、中遠景建筑組件、家具,甚至簡單 NPC 角色和載具上,基本已達直接可用水平。下一步也希望觸及非常復雜的動畫尤其是面部動畫,以及帶綁定動畫的游戲主角。如果能攻克這個門檻,3A studio 的接受度也會慢慢提升。迭代 3D 生成技術兩三年來,確實能感受到隨著質量提高,越來越多上游用戶發現其中的價值。
筱寧:以前做游戲有個感覺:美術資產整體是 100 的話,最頭部的 20%:角色、CG、核心動畫,可能占了 80% 的預算,剩下 80% 的填充只消耗 20%。不攻克最核心那塊,是不是就吃不到大頭?
曹炎培:對 3A 大制作來說確實關鍵,但我們長期同等看重怎么拉低門檻。世界上此時此刻真正有能力制作游戲的人非常少,屬于金字塔尖。讓更多創作者進來,就需要把接觸這類技術的人群無限放大。除了不斷攻克最精細的生成,也需要在可用性、速度等方面讓大家覺得生成 3D 資產是一件沒有門檻、沒有成本的事。
筱寧:先把專業線聊更透一點。核心資產不僅僅是 3A,很多二游或相對大型游戲的核心角色、面部、動畫也屬于核心資產。要突破這個天花板,現在還缺什么?
曹炎培:P1.0 已經 cover 中前段,高模到低模到拓撲到初始貼圖。后面最難、我們也在花很多精力解決的是動力學綁定,AI 不只要理解幾何造型,還需要理解三維物體背后的機械結構和物理運動機理,處理的信息廣度更大,數據積累和清洗也更費時間。
關鍵是,不只看資產精度本身,而是所有組份都要是全的。用戶拿過去就能做操作、做動畫。現在綁定和動畫方面,可能還沒完全達到 production ready 的水平,但我相信會以很快的速度迎來突破。
筱寧:這件事不止一家在做,如果真做到了會變成通用技術嗎?大家競爭的到底是什么?
曹炎培:從現在的行業階段看,AI 3D 正從前兩年純算法論文的百花齊放走向定義工業數據標準的階段。誰能提供最穩定、最標準、最快速、最容易被現有引擎吸收的數據形式,就最有可能占據生態鏈的咽喉位置。
這里面涉及經典的創新者窘境。有海量游戲業務的大廠有好的技術團隊、算力和資金,但內部 AI 團隊背負沉重的歷史包袱,要適配已有甚至陳舊的管線,比如用十年后的 AI 服務十年前的游戲制作流程。特定管線和業務邏輯的強綁定會讓研發陷入困境。
而像 VAST 這樣獨立的平臺,優勢在于技術中立性和敏捷性——不為某款過去的游戲打補丁,不服務某個特定制作流程,可以從第一性原理出發,直接用最前沿的算法去定義未來 3D 生成最應該做成什么樣。
更長期來講,我們始終在攻克的核心命題是:如何瞬間直接生成一個可交互、具備底層邏輯的 3D 世界。一個完美的 3D 資產應該有皮、有肉、有骨,還有腦。過去行業生成的模型大部分只做到了表皮——有基本視覺元素,再往下都缺失。P1.0 通過原生網格解決了“肉”——嚴絲合縫的拓撲結構。綁定動畫屬于“骨”——讓模型自帶運動學和物理結構,關節在合理位置,能響應用戶交互。“腦”就是資產本身可能就是個 NPC 或 Agent,在環境里和玩家交互、Agent 之間交互。
一步步從純幾何形狀生成走向帶運動學和交互邏輯的資產構造,這是我們從開始就一直想做的技術目標。
筱寧:按你剛才的說法,整體管線邏輯都會有變化。3D 管線投入了大量人力,作為從業者自然會好奇:什么不會被替代?什么容易被替代?
曹炎培:AI 發展這么快,不只美術和游戲從業者,連大家以前覺得處在智力頂端的程序員、研究員都有很大危機感。這個話題需要長期討論。但回到 3D 管線本身,技術發展的意義和趨勢,也是我們希望打造技術的方向,就是把大家從繁雜的重復中解放出來,把精力發揮到真正需要創意和想法的方面。即使限定在 3D 管線或游戲行業里,未來真正能體現自身價值和差異化的,依然是想法、創意和行動力。
03
兩秒出模型之后,當速度快到改變創作方式
“如果有人告訴你可以在一天內生成 10 萬個資產,你會構造什么樣的游戲?和需要半個月才能獲得一個主角資產相比,大家會做很不一樣的選擇。以前根本沒有前面那個選項。”
筱寧:你提了好幾次速度,你們為什么這么強調速度?
曹炎培:對我們來說速度不是宣傳點,是從公司成立以來就一直追求的目標。速度的量變在 3D 內容創作中會引發質變。現在最核心的意義在于把試錯成本幾乎降到零。生成一個模型需要 10 分鐘,創作者的思路就是被打斷的。但 P1.0 的 2 秒生成速度實現了實時反饋,你可以瞬間驗證 10 個不同概念,留下最好的。
這里面其實是解放了創作者的想象力,想到什么不再需要很大阻力。就跟現在大家寫程序一樣,有了想法立即扔給 Codex 或 Claude,寫出來再看對不對。3D 也一樣,只有把生成速度和由速度帶來的心理壓力無限降低,才有機會引發真正的質變。
對 UGC 生態來說速度更至關重要。專業開發中速度帶來效率提升,但 UGC 里速度提供的是最核心的即時滿足感。普通用戶沒耐心等 10 分鐘進度條,只有 AI 能像敲回車一樣瞬間生成 3D 實體,用戶才有持續交互和創作的動力。
筱寧:我覺得速度這件事,看成生產還是消費,心理預期完全不一樣。UGC 那個邏輯我蠻認可的。但回到生產端,以前做一個 3D 資產以天、以周為單位,降到 2 秒很極端。到底什么速度已經帶來質變了?需要這么極端嗎?
曹炎培:2 秒主要做到的是原生網格拓撲生成,后面貼圖材質、綁定動畫仍需人工參與或 AI 與人協作。并不是端到端幾秒內生成完整資產,但這是我們接下來非常想追求的目標。是不是真的需要秒級?也許未必,但生成越快,大家越會跳脫以前時間限制帶來的思維約束。
如果有人告訴你一天能生成 10 萬個資產,你會構造什么游戲?和需要半個月才獲得一個主角資產相比,大家會做很不一樣的選擇,以前根本沒有前面那個選項。即使在專業領域,速度的量變依然會帶來制作范式和思路上的質變。
筱寧:作為曾經的游戲打工人,對有創意的開發者這一定是正向加持。但對打工人來講好像更卷了,以前一周做一兩個資產,有了工具加持可能一天要做一萬個?
曹炎培:我倒不一定覺得更卷。有了 AI 能力后制作內容的形態也會變化。有點像以前在電視臺做視頻的人和今天在 MCN 做短視頻的從業者——核心個人價值可能一樣,但內容形態更多樣了,除了長篇還有短劇、刷不完的短視頻,確確實實有更多才能發揮的空間。至于是不是更卷,那是復雜的社會和經濟問題,不能完全歸因于某個單點技術。
筱寧:你們說 UGC 的時候,更在乎降低開發者門檻,還是真的一步到位到大眾人人可生成?
曹炎培:最終目標是更純粹的 3D UGC,這是一開始做這家公司的原因。但每個降低門檻的技術一定程度上也能降本增效,你叫它“沿途下蛋”也好。3D UGC 到底長什么樣,絕大多數人也沒定義清楚,甚至能不能實現大家都抱著懷疑態度。所以我們永遠朝很高的目標做,但也踏實地讓每個技術在今天的行業里發揮應有的作用。
我們一般介紹 Tripo 的時候,不太會講說“我們是幫游戲公司省時省力的 3D 工具公司”。定位在工具,它的價值就回到降本增效了嘛。我們實際在做的是解鎖下一代 UGC 或全民互動娛樂平臺的底層基礎設施。
筱寧:降門檻和搏上限有優先級排序嗎?它們在技術難點上是同一方向嗎?
曹炎培:在今天的產業條件下它其實是一回事。降門檻的下限是依然要 pipeline-ready。追求更高質量的同時它依然是 pipeline-ready 的資產——一旦 pipeline-ready,不管是游戲引擎還是 vibe coded 小游戲,對資產要求都一樣。有了 pipeline-ready 的資產生成能力,組份越來越全,門檻自然在降低。至少此時此刻,這兩個是一回事。
04
賭 3D 而不是賭視頻,一個關于未來的不同押注
“現實世界本身是 3D 的,視頻中的 2D 像素只是三維世界壓縮降維后的投影。堅持原生 3D 路線,其長期技術延展性被 AI 研究領域大大低估了。”
筱寧:你一直在講游戲引擎,但在視頻模型發展的時代,大家也在想游戲引擎本身是不是會變化?存不存在一種可能性,未來有些游戲類型脫離引擎就成立?
曹炎培:完全有可能,我們自己也花很多時間想和探索。交互式內容放眼未來幾年,不會只有傳統游戲形態一種。比如現在確實有可交互的世界模型形態,從一張畫面開始,通過視頻模型和畫面交互,在里面探索甚至對環境產生影響。
另外隨著 AI Coding 和 Agent 能力增強,是不是需要一套讓 AI Agent 用起來更容易的新引擎?這大概率是未來趨勢。現在 vibe coded 游戲都用 Three.js,從我的視角看就是因為 AI 沒有很好的能力操控 Unity、UE 這樣重的引擎,最直接的方式就是從頭寫 JavaScript。
筱寧:“世界模型”這個詞這半年越來越熱,討論度很高。你怎么定義世界模型?你們有什么差異?
曹炎培:我認可學術界通用定義:給定當前狀態和一個行動,預測環境下一個時刻的狀態。但大家在各自關心的領域實踐這個思想。
我們和行業里最火熱的純視頻生成路線有所不同。純視頻生成更多是個光影模擬器,學到的是光影變化,對背后三維世界的規律很難保證。這也是大家詬病視頻世界模型常有常識性或邏輯性錯誤的原因。
我們從一開始瞄準的就是讓視頻模型能在多人并發互動、機制和行為高度可控的環境下發揮作用——支持多個玩家和智能體同時對環境施加影響。更重要的是,世界里的機制和行為必須高度可預測和確定性——賽車游戲里 A 超過了 B,就是在 B 前面,不能因為某一幀跳變了位置又發生變化。純視頻模型從底層機理上很難保證這種唯一性和確定性。
當然有人會說,視頻世界模型那種“走過的地方回頭不知道變成什么樣”也是一種新奇體驗。但我們覺得這種新奇感本質上是建立在視頻模型記憶缺陷上的權宜之計,很難幫助真正想控制、想創作的創作者去構造能被反復體驗的內容。我們做世界模型的思路還是:支持多人互動,世界的機制和未來是可預測、唯一確定的。
筱寧:純視頻生成的邏輯性不是真正意義上的理解,小誤差會積累。要達成你說的目標,好像隱含著模型推理中要有真正的邏輯性串聯?
曹炎培:完全正確。所以我們需要脫離單體視頻模型的范式,把推演和畫面呈現都交給同一個模型,在當前能力下很難保證高可控性。我們會在推理階段引入更多顯式 state,比如 3D 的或代碼的。還是蠻早期的探索,但路線清楚后會很快迭代驗證。
筱寧:為什么不等別人做出來直接用?
曹炎培:因為大家對世界模型做成什么狀態、先攻克什么問題,技術選擇非常不一樣。主流應用場景可能是機器人控制和仿真,這和我們關注的未來三五年應用很不同,會推出不同技術路線。而且 Tripo 一直解決的是數字世界里的“狀態”——生成資產就是生成狀態,但資產怎么演化、狀態之間怎么遷移,正是世界模型要解決的。我們正好走到了這個檔口,世界模型又是一個潛力和想象力很大的技術方向。
筱寧:未來一到兩年,你們最關鍵投入在哪?
曹炎培:在 AI 領域兩三年規劃真的非常長——算法機理、算力、神經網絡構建、多模態研究范式可能每幾個月就發生一次大重構。對我們來說關鍵的是保持高技術敏銳度和高敏捷決策能力,不對某種路線產生強路徑依賴,當新趨勢出現時能非常快地調整方向,從技術重構到產品級模型再到產品能力,走非常敏捷的迭代路線。
腦子里有兩三年后的狀態大概是完成從3D 資產生產力工具向空間計算或 UGC 交互底座能力的躍遷——但實際上大家更關注的是未來兩三個月甚至幾個禮拜的快速迭代。
筱寧:AI 3D 直接高質量進入管線需要多長時間?兩三年可以看到嗎?
曹炎培:以今天的技術動量看,兩三年甚至有點長。到明年這個時候,大家完全可以期待 AI 生成的資產就有很好的貼圖綁定加上拓撲,可以當成完整態游戲資產來用。
去年這時候大家對高模生成本身的質量都有很多詬病,隨便生成個車形狀不準,手辦都達不到想打印出來的程度。但十幾個月后,高模已經逼近人類藝術家手工雕刻的水平,拓撲低模也能做得很好。到明年,“有皮有肉有骨有腦”的資產應該能被 AI 端到端生成出來。
筱寧:站在今天,AI 3D 什么被高估了?什么被低估了?
曹炎培:被高估的還是視覺擬真。大家在網上看到很逼真的 3D 生成結果,但那是以視頻形式呈現的。從渲染出的高模角度看確實精細,從業者都有這種感覺,普通大眾更看不出門道。
被低估的是 3D 信號作為物理世界原生表征的終極價值。在研究界,3D 這種模態被很大程度上看衰。很多學者引用“苦澀的教訓”說 3D 很難 scale、不 general、有很多人工設計,認為贏家一定是更純粹依靠海量視頻數據的路徑。我覺得這種視角有很大局限——它隱含的框架受限于傳統計算機視覺任務的思維。
回到第一性原理:2D 像素矩陣和具有絕對空間尺度的 3D 信號哪個更原生?答案顯然是后者。現實世界本身是 3D 的,2D 像素是三維世界壓縮降維后的投影。P1.0 直接在三維結構中學習和生成,不是引入人工設計,而是讓 AI 直接擬合物理世界原本的信號。堅持原生 3D 路線,其長期技術延展性和持續性被大大低估了。
筱寧:GDC 期間 Simon(VAST 創始人)跟我說,很多人還沒真的體驗過 AI 3D,哪怕在 GDC 這樣開發者最盛大的大會上。這是不是也是一種被低估?
曹炎培:我個人恰恰相反,比較樂觀。一個顯然有用的東西大家還沒接觸到,意味著未來還有非常大的空間。為什么會這樣也好理解,我們一直到 P1.0 出來才能很快拿到拓撲正常的資產。之前第一批接觸的人試了發現是高模,覺得用處不大就沒動力推廣。有了 P1.0 之后,大家發現出來的真是 game assets 網格,很多海外客戶非常主動地來接入 API,試用后自然產生訂閱。這確實是一個蠻大的轉折點。
筱寧:如果只用一兩句話,你希望外界怎么理解 Tripo?
曹炎培:我們希望大家把 Tripo 理解為未來全新 UGC 互動平臺和 3D 內容生態的造物基座。不只是省時省力的 3D 創作工具,而是為下一代交互形式和 3D 內容生態打造了一整套基座能力。不管是 3A 大型團隊還是沒有美術基礎、只有一腔熱血和滿腦子點子的普通大眾,都能以很低的門檻實時構筑腦海中的 3D 世界。
筱寧:這是一個超大的宏圖。
曹炎培:不否認這是很高的目標。但我們團隊自始至終就是希望瞄著很高的目標不斷迭代,而不是把自己限定在一個很快就能望到頭的未來。
![]()
? “發送“社群”加入游戲茶館行業交流群”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.