打開瀏覽器就能直接走進一個逼真的 3D 世界,還能像玩游戲一樣自由旋轉角度,更能看清每一個物體的細節,甚至還能看到會動的虛擬人向你招手。
這上海交通大學人工智能學院鐘志航副教授和上海人工智能實驗室等合作者打造的一個名為 Visionary 的平臺,能讓復雜的 3D 場景在瀏覽器里流暢運行,不需要下載任何軟件,也不需要高性能顯卡,點擊鏈接就能看。
![]()
圖 | 鐘志航(來源:受訪者)
以前要想看一個高質量的 3D 模型,要么得下載幾個 G 的安裝包,要么得忍受卡頓和模糊的畫質。現在,研究人員將一個名為 3D 高斯濺射的技術搬到瀏覽器里,而且跑得比很多本地軟件還快。
什么是 3D 高斯濺射?它好比一個超級智能的點彩畫技術。傳統 3D 模型要使用大量三角形網格拼出物體,計算量巨大。而高斯濺射使用成千上萬個帶有顏色和透明度的小點來代替場景,這些點像霧氣一樣懸浮在空間中,從不同角度看過去它們會組合成為完整的畫面。這項技術因為效果好、速度快,正在成為一些世界模型創業公司的核心工具。
![]()
(來源:https://visionary-laboratory.github.io/visionary/)
但是問題來了,這么牛的技術普通人怎么用?以前的方法要么依賴笨重的本地軟件,裝起來非常費勁;要么在網頁上跑,但使用的是老舊的 WebGL 技術,只能看靜態畫面,稍微動一下就卡頓,更別提那些會動的、會變化的場景了。
![]()
(來源:https://arxiv.org/pdf/2512.04597)
Visionary 的突破在于,它把整套技術棧搬到了 WebGPU 上。WebGPU 是新一代瀏覽器圖形標準,能讓網頁直接調用顯卡干活。Visionary 還做了一個很聰明的設計,他們把各種復雜的 3D 算法統一打包成為 ONNX 格式。
ONNX 就像一個通用語言,不管是用 PyTorch 還是用 TensorFlow 訓練的模型,都成轉成為這個格式,然后在瀏覽器里直接運行。這就意味著,你不需要懂底層代碼,就能把最新的 3D 技術插進 Visionary 里用。
具體有多快?研究團隊拿一個包含 600 萬個高斯點的經典場景做了測試。現有的李飛飛 WorldLbas 團隊推出的網頁查看器 SparkJS 處理一幀需要 176 毫秒,而 Visionary 只需要 2 毫米,快樂將近 100 倍。而且畫質一點都沒有打折,反而因為算法優化變得更加細膩。
![]()
(來源:https://arxiv.org/pdf/2512.04597)
同時,Visionary 不只會處理靜態場景。它支持會動的 4D 場景,支持可驅動的虛擬人,甚至支持在渲染完成后加濾鏡和做風格遷移。比如你導入一個虛擬人模型,輸入幾個動作參數,它就能在瀏覽器里實時跳舞。這些動態效果以前只能在專業的動畫軟件里看到,現在點開網頁就行。
研究團隊使用幾個案例展示了 Visionary 的能力。他們把 Scaffold GS 這種基于神經網絡的 3D 模型跑進了瀏覽器,每幀只需要 9 到 16 毫秒生成畫面。
他們把 4D 高斯濺射也搬了過來,處理動態場景時每幀只要不到 8 毫秒。對于虛擬人動畫,即使是同時驅動 10 個虛擬人,也能保持在 55 毫秒左右,基本達到實時交互的標準。
![]()
(來源:https://arxiv.org/pdf/2512.04597)
這意味著未來的 3D/4D 內容將觸手可及,不再受限于設備性能。設計師想展示一個視頻,發給客戶一個網址客戶就能沉浸式體驗;至于游戲開發者他們甚至可以在瀏覽器里跑起來輕量級的 3D 游戲。
Visionary 已經在 GitHub 上開源了,任何人都能訪問。他們還做了一個在線編輯器,你可以在里面同時加載多個 3D 模型,和傳統網絡模型混合渲染,實時調整視角。
鐘志航告訴 DeepTech:“這項技術已經有了實際應用。在上海人工智能實驗室的 2025 世界人工智能大會成果中,有一個叫書生翼飛的項目,就是基于 Visionary 把上海一大塊區域的環境重建出來放在網頁端,用戶輸入想要的飛機型號,系統就能實時生成對應的飛機,在上海上空模擬飛行。
在數字孿生領域,工廠或供應鏈需要把各個環節數字化,有了這項技術,整個孿生體系會變得非常逼真,方便人交互,也方便智能體在接近真實環境的空間里學習操作。”
![]()
(來源:https://arxiv.org/pdf/2512.04597)
當然,這項技術還在進化中。研究團隊在論文里也提到,WebGPU 和 ONNX Runtime 還在發展,不同瀏覽器可能存在兼容差異。瀏覽器安全策略也對內存有約束,太大規模的場景和神經網絡目前還跑不了。但是方向已然非常清晰:那就是未來的 3D 世界不再遙遠,就存在于可能你此刻正在使用的瀏覽器。
鐘志航表示,Visionary 還打包成了一個 three.js 的庫,這意味著做游戲、做網頁端開發都可以直接使用,共享整個 three.js 的生態系統。
后續團隊計劃在物理交互上發力,比如在游戲場景中加入力的反饋,弓箭射中墻面得有反應。同時也在構建空間智能體的評測基準,因為這套體系能把神經網絡嵌到網頁端做推理,甚至可以讓體量不太大的多模態模型直接在網頁上跑,一邊做逼真的對話,一邊執行空間任務。
鐘志航的 Visionary 團隊在招聘熟悉神經渲染和圖形學的工程師和實習生,以及歡迎申請其在上海交通大學空間多媒體實驗室的碩士博士以及 RA。詳情請聯系郵箱 zzh.tech@gmail.com
參考資料:
相關論文:https://arxiv.org/pdf/2512.04597
相關開源代碼:https://github.com/Visionary-Laboratory/visionary
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.