網易首頁 > 網易號 > 正文申請入駐

《現代電影技術》｜陳焱松等：空間智能技術在VR電影空間映射中的應用探索

2025-03-21 12:38:28　來源: 電影技術微刊

北京舉報

分享至

本文刊發于《現代電影技術》2025年第2期

專家點評

人工智能（AI）的第三次浪潮正以空間智能（Spatial Intelligence）為核心掀起新一輪變革。空間智能即AI在三維空間中感知、推理和行動的能力，其核心在于賦予機器理解物理世界的深度、距離、方位及動態關系，從而在復雜環境中實現自主決策。VR電影作為空間智能技術的重要應用場景，其借助計算機系統及傳感器技術生成三維環境，創造出一種嶄新的人機交互方式，模擬人的視覺、聽覺、觸覺等感官功能，使觀眾沉浸在虛擬境界中。VR電影的全景式立體成像、環繞音響和人景交互，徹底沖破了傳統影院的維度，使觀眾在視覺和聽覺上完全浸潤于影片內容，為觀眾帶來嶄新的沉浸式交互式觀影體驗。隨著空間智能技術的發展與應用，AI技術與VR技術的耦合程度越來越深，未來VR電影將通過復雜運動模擬、多模態數據融合和智能體動態敘事等技術的綜合應用，推動其走向更加交互、更加沉浸和更富個性化的影像體驗，并持續推動敘事方式和交互模式的革新。《空間智能技術在VR電影空間映射中的應用探索》一文針對VR電影創制中面臨的如何在虛擬空間中實現對現實空間的動態映射這一困境，基于空間定位、空間認知和空間涌現的邏輯層級，從實時追蹤、多模態映射、三維生成和空間推理等維度，構建VR電影的空間智能技術路徑，為VR電影中虛擬空間與現實空間的復雜交互問題提供了解決思路，對相關研究人員具有較高的參考價值。

——潘志庚

教授

南京信息工程大學人工智能學院院長

作者簡介

陳焱松

北京師范大學藝術與傳媒學院數字媒體系助理研究員、勵耘博士后，主要研究方向：數字影像技術與藝術、AI生成藝術。

北京師范大學藝術與傳媒學院碩士研究生在讀，主要研究方向：數字媒體。

蔡若彤

摘要

伴隨人工智能技術的持續發展迭代，以空間智能為核心的技術集群逐漸改變虛擬現實（VR）電影中對于現實空間和虛擬空間的雙重認知方式，使VR電影創制進入全新階段。為解決VR電影創制面臨的運動映射、身體映射、動態交互映射等空間困境，本文通過對空間智能技術與VR電影間的關系梳理，基于空間定位技術、空間認知技術與空間涌現技術的邏輯層級，從實時追蹤技術、多模態映射技術、三維生成技術、空間推理技術等維度，初步構建VR電影的空間智能技術路徑，一定程度上解決了VR電影中虛擬空間與現實空間的復雜交互問題，有助于持續推動VR電影創制技術在空間映射中的革新，構筑一個更富沉浸性的虛擬空間環境。

關鍵詞

空間智能；VR電影；空間映射；空間涌現；智能體（AI Agent）

1 引言

2024年4月，斯坦福大學教授李飛飛在溫哥華TED大會上首次向公眾詳細闡釋了空間智能（Spatial Intelligence）的相關概念[1]。這一概念最初來源于心理學，由霍華德·加德納（Howard Gardner）在其著作《心智框架》（Frames of Mind: The Theory of Multiple Intelligences, 1983）中的多元智能理論[2]所提出，主要指人類理解和利用空間關系的能力，包括空間感知、空間推理、空間表征和空間想象等。此后在人工智能技術與心理學的耦合下，結合計算機視覺（CV）、圖像處理、深度感知、空間映射以及機器學習（ML）和神經網絡等技術，賦予機器感知、理解和導航物理世界的能力。與以往人工智能技術主要處理二維圖像（包含靜態和動態）不同，空間智能相關概念及其支撐技術將人工智能技術帶入新的深水區，逐步發展出能夠解釋和推理三維空間的算法能力，邁向對于動態實時環境的深度感知與交互。

空間智能的認知過程涉及對現實世界與抽象世界中的視覺信息進行理解，以及對信息進行想象的能力，其技術突破不僅推動了智能導航、自動駕駛和虛擬現實（VR）等領域的迅速發展，還為從科學研究到藝術創作的廣泛應用場景提供了更多可能。尤其對VR電影而言，深度感知和空間映射技術為其提供了高度逼真的場景建模能力，機器學習則提升了VR電影系統實時優化內容生成與交互方式的能力。可以說，以空間智能為核心的系列技術逐漸改變了VR電影中對于現實空間和虛擬空間的雙重認知方式，同時為各類媒介與技術的融合帶來深遠影響。正如當前的電影概念不再被簡單定義為圖像與聲音的組合，不再局限于傳統線性敘事或非線性敘事，而是成為一個更具開放屬性、更富多維動態、更能復雜交互的涌現性影像系統[3]。VR電影的表達形式也伴隨技術發展不斷迭代，通過整合實時空間計算、人工智能及多模態交互技術，全面步入空間智能的新階段。

2 VR電影的空間困境

虛擬現實電影作為一種新興媒介，其核心在于構建一個獨特且具備影像吸引力的數字世界，使觀眾能產生身臨其境的感受。然而，這種沉浸感的實現并非簡單依賴于VR媒介本身的技術特性，而是建立在虛擬空間與現實空間之間復雜的交互技術機制之上。從認知科學角度來看，沉浸感并非單純來源于虛擬空間所提供的構想屬性，而是需建立在現實空間感知與大腦映射的和諧統一基礎之上。相關研究表明，無論是通過觸覺增強模擬物理觸感以提升虛擬環境中的真實感[4]，還是通過虛擬空間與現實空間的動態對齊以減輕認知負擔[5]，虛擬對象與物理對象的雙向交互能夠實現真實行為映射，進而顯著增強沉浸感。

因此，當前VR電影創制中面臨的重要空間困境在于如何在虛擬空間中實現對現實空間的動態映射，即當VR創造出完全虛擬的環境時，觀眾的真實身體仍存在于現實世界中，如何彌合這種虛擬與現實、具身性與意向性之間的裂隙。從本質來看，VR電影的空間困境實際是一個系統性的問題，涉及計算機科學、認知科學、電影學等多重領域，當前空間智能技術能夠從空間定位、空間認知、空間涌現等方面對VR電影空間進行優化設計，使觀眾能夠清晰地認識“我”在虛擬情境中的位置、角色及規則，解決“觀眾是誰、觀眾在哪、觀眾要到哪里去”等問題。

2.1 空間定位技術與運動映射

運動映射是指將觀眾在現實世界中的運動行為（如行走、旋轉、跳躍）映射到虛擬環境中，使虛擬角色運動、視角等保持與真實運動一致。在VR電影的空間移動中，由于VR定位和追蹤技術的限制，觀眾常被限制為一個靜態的觀察者，對于360°影像進行全景觀看，缺少觀眾在這一空間中的位置感知與運動映射。此后，部分VR電影采用“瞬移式”交互，通過手柄點擊完成位置跳轉，以實現在VR空間中的大幅度移動。這樣設計雖可解決虛擬空間的運動問題，但缺乏現實運動的連續性，可能降低沉浸感，同時也容易引發觀眾的眩暈感或暈動癥[6]，從而影響觀眾的體驗。因此，靜態式觀察、程序化交互都限制了觀眾身體在VR空間中的實際移動，從而降低了觀眾的運動映射感。

空間定位技術集群引入VR電影后，能將觀眾的真實運動與在虛擬空間中的運動進行精準映射，實現觀眾與虛擬世界間的空間一致性，被廣泛用于解決“觀眾在哪”的問題，極大地推動觀眾在場感的塑造。一般而言，空間定位技術涉及感知空間中的物體位置、自己的運動軌跡以及相對于周圍環境的關系。在基于人體的運動映射中，涉及旋轉、跳躍等復雜肢體運動的檢測，對精準動作捕捉技術提出了更高要求。然而，這種高精度追蹤往往需要額外的硬件支持，比如多個傳感器、攝像頭、慣性測量單元（IMU）或外骨骼設備。這會導致觀眾需佩戴較笨重的設備，可能也會限制觀眾的運動范圍，影響自然的跳躍或旋轉動作。

2.2 空間認知技術與身體映射

身體映射是指將觀眾在現實世界中的身體感知（如視覺、聽覺、觸覺等感覺）行為映射到虛擬環境中，使虛擬角色的感知過程與觀眾的真實感知類似。在VR技術發展的初期，身體映射的設計和實現能力有限，尤其感官一致性是身體映射的難題之一。以觸覺設備為例，早期觸覺設備的功能多采用簡單的振動反饋，主要用于模擬單一的觸碰事件或物體邊緣的感知，缺乏對物體紋理、形狀和動態變化的精細模擬，使觀眾的觸覺體驗片面而生硬。而在觸覺之外的視覺、聽覺等其他感官，也常會出現感知不同步的問題。例如，觀眾在虛擬環境中抓取物體時，視覺上物體已移動，但觸覺反饋可能延遲或完全缺失。這種感官不協調削弱了觀眾的沉浸感，甚至引發不適[7]。

當空間定位技術解決了“觀眾在哪”的問題之后，空間認知技術需解決“觀眾是誰”的問題。空間認知技術集群引入VR電影可增強觀眾對虛擬世界空間結構、虛擬物品等之間的理解與感知。通過諸如認知地圖映射[8]等技術框架，空間認知技術能夠對用戶感知模式和認知偏好進行建模，實現虛擬場景的實時生成。例如，根據觀眾的視線焦點和注意力模式，動態調整虛擬場景中的燈光、色彩或布局，確保觀眾的注意力集中在關鍵敘事點上。

2.3 空間涌現技術與動態交互映射

動態交互映射是指將觀眾在現實世界中的交互邏輯、交互動作映射至動態變化的虛擬環境及虛擬角色之上。以往 VR電影往往是運用單一的交互反饋來表現虛擬環境的動態屬性，但虛擬環境并非單一“觸發-反饋”的線性世界，而是隨著觀眾行為和敘事進程實時變化的開放世界。然而，構建一個能夠動態交互的虛擬空間，不僅需要龐大的數字資產支持，還要依托強大的計算能力，以實現從空間設計到交互響應的完整功能。

當空間定位技術解決了“觀眾在哪”問題，空間認知技術解決“觀眾是誰”問題之后，空間涌現技術實際上解決了“觀眾要到哪里去”的問題。空間涌現技術集群引入VR電影后，通過實時的數據分析與模擬算法，提前預測出虛擬世界中的變化，并生成合適的環境反饋；與此同時，虛擬角色通過實時感知觀眾行為并生成相應反饋，可使虛擬敘事系統更具沉浸感和交互性。然而，這種高度動態、個性化的敘事反饋對開發者提出了極高的技術要求，尤其是在復雜的交互場景下，如何保持動態空間的一致性和降低復雜性，是一項技術難題。

3 構建VR電影的空間智能技術路徑

針對VR電影的空間困境，本文基于空間智能技術集群進行梳理，并從空間定位、空間認知和空間涌現三個維度展開探討。通過實時追蹤技術實現精確的空間定位，借助多模態映射技術優化空間認知，結合三維生成與空間推理技術推動空間涌現。基于此，本文構建了VR電影的空間智能技術路徑，為VR電影的空間制作提供了系統性的技術框架（圖1）。

圖1　構建VR電影的空間智能技術路徑

3.1 實時追蹤技術完成空間定位與地圖生成

在虛擬現實環境中，高精度實時追蹤技術是實現沉浸式體驗的核心，其可通過追蹤觀眾的頭部、手部及全身姿態，定位觀眾在VR電影場景中的位置和方向，還可根據觀眾在虛擬環境中自由走動、隨機運動和視角動態調整進行自適應變化，將觀眾的物理運動與虛擬世界進行精準對接，從而保證虛擬環境與現實世界之間的無縫交互。

從技術路線上看，實時追蹤技術包含定位（Localization）、建圖（Mapping）、同步（Simultaneous）三個邏輯層級。以新近出現的VR SLAM算法為例，VR/AR代表性產品中微軟HoloLens、谷歌ProjectTango以及Magic Leap都應用了同步定位與建圖（Simultaneous Localization and Mapping, SLAM）技術作為視覺增強手段，SLAM算法生成VR空間地圖的過程涉及感知環境、構建地圖和優化位姿等多個步驟[9]。

（1）定位，即確定VR頭顯在真實環境中的具體位置和方向。一方面需感知環境，SLAM在生成VR空間地圖時需采集環境信息，可通過深度相機、激光雷達等傳感器提供空間內的環境數據，消費級VR設備主要通過RGB攝像頭和IMU采集環境數據、幾何特征和位置關系。另一方面是特征提取與匹配，SLAM通過分析采集的數據，在深度學習（DL）支持下提取環境中的關鍵特征點，并進行匹配以實現定位和建圖。

（2）建圖，即根據環境中的傳感器數據，構建環境的動態空間地圖。基于傳感器數據和特征匹配結果，使用深度信息與位置數據將環境特征轉換為三維點云，并通過逐幀疊加生成初步的三維模型，再進行網格化處理，逐步完善VR大空間地圖，同時通過算法優化提高地圖和定位的精度。

（3）同步，即定位和建圖是同步進行的，建圖依賴定位的準確性，而定位需基于實時更新的地圖。SLAM基于地圖建圖階段所輸出的三種類型地圖，包括三維點云地圖（記錄空間中每個點的位置和顏色信息）、網格地圖（適用于VR系統，提供連續的三角化表面）、語義地圖（標注區域功能和物體類別，便于交互設計）。隨后，相關地圖被導入VR引擎（如Unity或Unreal Engine），結合設備的實時位置和方向，實現用戶在虛擬空間中的精準定位與交互[10,11]。

以VR大空間體驗《消失的法老》（Horizon of Khufu）為例，整個體驗區域超過500平方米，可同時容納80余名觀眾在以1∶1比例還原的金字塔內部場景中自由探索，與其他參與者實時交互，這需要實時精準的空間定位、高效的網絡同步和低延遲的數據傳輸技術，以確保多人體驗的流暢性和一致性。此后，2024年國內相繼推出的VR大空間項目如《巴黎舞會》《永遠的巴黎圣母院》《蒼蘭決》《秦潮覺醒》等都采用了空間定位技術，體驗空間達幾十到幾百平方米不等。SLAM系統的空間支持范圍從數十平方米的室內環境到數千平方米的室外場景，隨著技術的不斷進步，SLAM在更大空間中的應用也在持續拓展。

3.2 多模態映射技術增強空間映射的具身體驗

在虛擬現實環境中，感知空間映射是一項關鍵的設計與技術挑戰。從根本上來說，人類感知空間的過程深受海馬體映射的影響，諸如Aronov等[12]、Bao等[13]和Killian等[14]的研究表明，海馬體不僅可處理空間導航信息，還可結合多種感官輸入（如視覺圖像、聲音頻率、氣味等），將這些信息嵌入一個由感知特性定義的多維感知空間中。而從技術層面來看，前述對海馬體的影響實際上是以多模態映射的技術完成的，尤其是通過多模態感覺的輸入（如視覺、聽覺、觸覺等）構建沉浸式空間體驗，幫助觀眾形成更自然的空間知覺，從而為VR環境中的感知空間映射提供了理論基礎。

（1）在視覺模態上，高分辨率圖像、動態光影效果和三維深度感知技術，能夠增強視覺輸入與虛擬空間之間的位置關系，而實時調整視點、焦距和透視投影，可使用戶感受到真實的空間深度和物體間的距離關系。

（2）在聽覺模態上，基于頭相關傳遞函數（HRTF）的三維音頻技術，VR系統能夠模擬聲音的空間位置及其在環境中的傳播特性[15]；在低光照或視覺信息不完整的情況下，空間化聽覺可增強觀眾定向感，通過聲音的方向、強度和頻率變化來感知物體的遠近和方位[16]；此外，動態聲音設計還可引導觀眾的注意力到特定的虛擬場景區域，優化空間探索體驗。

（3）在觸覺模態上，通過力反饋設備和觸覺模擬技術，為觀眾提供與虛擬物體的直接觸感。例如，當用戶在虛擬環境中觸碰墻壁、拾取物體或感受水流時，觸覺設備可實時傳遞對應的振動、壓力或溫度信息。這種感知不僅增強了觀眾的具身體驗，還能通過觸覺的反饋細節進一步豐富感知空間的層次感。

（4）在其他感官模態上，諸如嗅覺上，通過氣味模擬技術，能夠將由感受器激活的電信號傳遞至大腦，并調節大腦功能，包括記憶、想象與情緒等[17]。

正如早期的VR技術大多僅提供沉浸式的視覺體驗，受制于有限的物理空間及無法充分發揮的交互技術之間的矛盾，而在沉浸式大空間創制中，觀者的身體動作，如腳步行走、奔跑、跳躍等，都能通過觸覺和視覺的動態協作映射至虛擬空間，從而生成一種空間知覺與身體運動的真實整合。以VR大空間作品《風起洛陽》為例，燈光爆閃，震動模擬爆炸，風感模擬風雪和下降，溫感與氣味模擬環境變化等多模態感官刺激與映射，加速了敘事的情緒節奏。綜上所述，通過整合視覺、聽覺、觸覺、嗅覺等多模態感知輸入，VR環境能夠幫助觀眾建立一個動態而多維的感知空間。這種感知空間映射不僅提升了觀眾的沉浸感和存在感，還可優化虛擬敘事與交互體驗。但多模態輸入的同步性與實時性需要更高效的技術支持，跨模態感知的設計還需深入研究觀眾的認知特性，如何避免感官過載以優化觀眾體驗也是關鍵問題之一。

3.3 三維生成技術構建虛擬影像場景

VR電影中的虛擬影像場景綜合文本、圖像、視頻和三維模型等多種媒介形式，是一個融合多種媒介特征的復雜信息場域。其除了算力、資源、網絡等基礎要求外，往往同時需要算法驅動，來完成快速生成高質量的虛擬場景、動態角色以及環境細節，從而為VR電影創造了可流動、可動態、可涌現的虛擬世界。當前的空間智能技術集群為三維生成技術構建虛擬影像場景提供了多重解決方案。

（1）圖像轉三維模型的技術集群，包括運用攝影測量（Photogrammetry）、深度映射（Depth Mapping）、基于圖像的建模（Image?Based Modeling）等方式，以實現將二維圖像轉換為三維模型。首先，攝影測量通過拍攝多角度的照片來重建三維模型，算法通過識別單張圖像中的共視點和特征點，推算出它們在三維空間中的位置，進而重建物體的三維形態，同時為了提高精度，使用多張圖片的結合最終構建出完整的三維模型。其次，深度映射則通過為每個像素賦予一個深度值（即從觀察點到物體的距離），實現二維圖像向三維圖像的轉換。常見的深度映射方法包括立體視覺技術（Stereo Vision）和結構光（Structured Light）掃描。基于圖像的建模技術通過分析單一或多張圖像的紋理、形狀和光照變化，推斷物體的深度和幾何特征，最終生成三維模型。這些技術通常依賴于計算機視覺和機器學習算法來識別和匹配圖像中的關鍵特征點，進而推算三維結構。再次，基于圖像的建模是將一組照片轉化為三維空間的邏輯，一方面它依賴于運動恢復結構（Structure from Motion, SfM）[18]，即一種基于多個二維圖像推導三維結構的技術，通過檢測圖像間的匹配特征點來估算相機的相對位置和姿態以恢復場景中的三維點云或粗略表面模型。另一方面，它依賴于多視圖立體視覺（Multi?View Stereo, MVS）[19]底層算法，MVS在SfM基礎上進一步優化，通過對多個視角圖像中的每個像素高精度深度計算，生成更高分辨率的三維模型。兩種技術結合顯著提高了圖像到三維模型的轉換精度和效率。

（2）自然語言轉化為三維空間的技術集群。密歇根大學的研究人員提出了一個名為VRCopilot的系統，將預先訓練的生成式 AI 模型集成至沉浸式創作中，以促進 VR 中的人機共創[20]。VRCopilot系統利用自然語言處理（NLP）技術將人類語言描述轉化為三維空間布局。例如，用戶可通過語音命令描述“創建一把椅子”，系統會基于AI模型生成多個供用戶選擇的模型線框，用戶隨后可通過語音命令進一步優化設計，或在虛擬地板使用手柄調整線框細節，最后將線框變成具體的椅子。目前的生成系統還處于需多模態規范生成內容的階段，三維影像生成AI技術仍需更進一步提升對人類自然語言描述的理解能力，以識別空間概念、物體關系以及布局要求。

（3）以神經輻射場（NeRF）為代表的基于深度學習的三維空間生成方法。其通過神經網絡建模場景中每個點的輻射屬性，從稀疏的二維圖像中重建逼真的三維場景，是完全區別于傳統三維模型生成路徑的電影空間場景建構新方式。

3.4 空間推理技術模擬復雜運動與路徑

空間推理的核心是使模型能夠理解并處理關于物體、環境及其相互關系的三維空間信息，尤其是其賦予智能體（如虛擬角色、機器人或其他虛擬對象）理解三維空間環境、識別物體及其相互關系的能力，這不僅包括物體的靜態位置和方向，還涵蓋了動態場景中的物體運動趨勢、路徑規劃及與環境的交互。在VR電影中，智能體（AI Agent）的行為模擬與運動路徑生成是增強沉浸感和交互性的關鍵因素之一，虛擬角色通常需在復雜的三維環境中自由移動，并與其他物體或角色進行交互。整體而言，空間推理技術通過深度學習、強化學習以及視覺-語言模型的結合，能夠實時生成合理的運動軌跡和行為路徑。

（1）大模型空間語義推理。大語言模型不僅需識別圖像或視頻中的物體，還需基于語言指令或語境描述推斷物體的空間關系，如位置、方向、距離等。在動態場景中，模型需進一步理解物體的運動趨勢、預測未來位置，并結合時間序列信息進行邏輯推理，為虛擬場景中的復雜行為生成提供了可能性。在這些能力的基礎上，空間技術可進一步融合視覺信息與語言模態，通過多模態預訓練架構（如CLIP或Flamingo）學習跨模態的語義對齊關系，從而理解諸如“紅色蘋果在桌子上”這樣的描述[21,22]。這種語義理解不僅限于靜態認知，還可用于動態推理。例如，模型可基于語句“跟隨那個移動的黃色方塊”實時生成跟蹤路徑，展現對場景的動態感知與反應能力。

（2）機器人語言智能交互。目前最大的開源真實機器人數據集Open X?Embodiment Dataset[23]，由 DeepMind 和斯坦福大學等機構聯合開發，整合了來自全球 34 個實驗室的 60 個機器人數據集。基于該數據集，研究人員訓練了兩個核心模型：一是RT?1 (Robotics Transformer 1)[24]，一個基于 Transformer 的高效架構，專為機器人控制設計，能夠通過傳感器輸入和環境狀態計算智能體的最佳行動路徑。圖2展示了RT?1模型從多個機器人收集數據時的訓練方法，其中，藍色框內表示機器人在日常任務（如桌面整理或物品分類）中收集視覺數據，紅色框表示使用 KUKA 機械臂收集的抓取任務數據。二是RT?2 (Robotics Transformer 2)[25]，一種視覺-語言模型，將機器人動作與自然語言相結合，不僅生成運動路徑，還能生成與這些動作相關的自然語言描述，提升了模型的理解和交互能力。利用這一模型，研究人員可在3D環境中訓練機器人學習基于語言指令的操作（如“把蘋果放在布料旁邊、上面、罐頭和橙子中間”）。在這一訓練過程中，機器人不僅能夠識別環境中的空間結構，還能動態規劃路徑，根據實時環境的變化完成復雜任務。這項技術為虛擬角色（如機器人或其他虛擬智能體）提供類似人類的空間認知能力，有助于其在VR電影等復雜環境中自然移動和交互。

圖2　RT?1模型從多個機器人收集數據時的訓練方法[24]

（3）AI驅動的智能體交互。智能體行為驅動技術通過空間推理能力賦予虛擬角色類似人類的行動能力。在虛擬環境中，智能體可根據劇情需求和場景特性生成動態行為。例如，在VR電影或游戲中，角色行為可基于空間推理技術實時調整，如在追逐、探索或戰斗場景中，智能體會根據環境變化（如障礙物、目標位置）生成合理的行為路徑。智能體不僅依賴于視覺信息來感知空間，還能通過多模態的聽覺輸入（如指令或對話）驅動行為，使角色的動作更具交互性和情感表達。在多人交互場景中，智能體之間的協同動作更依賴于空間推理技術，確保多個角色間協調并高效完成復雜任務。在VR作品《半衰期：愛莉克斯》（Half?Life: Alyx）中，每個智能體都擁有各自的記憶模塊，能夠將體驗玩家與其交互的方式（如選擇對話的內容、玩家的情緒反應）進行記憶儲存，同時反饋出個性化的對話選項和動態反應。

4 VR電影技術展望

隨著人工智能技術與虛擬現實技術的耦合程度越來越深，未來VR電影技術將通過復雜運動模擬、多模態數據融合和智能體動態敘事等技術的綜合應用，推動其走向更加交互、更加沉浸和更富個性化的影像體驗，并持續推動敘事方式和交互模式的革新。尤其是在虛擬世界復雜性不斷增強的當下，如何在保證沉浸感的同時提升交互的連貫性和響應速度，成為VR電影技術發展的關鍵挑戰。

（1）人工智能技術實現對觀眾運行路徑的預測及預渲染。在VR電影空間中，系統可基于觀眾的歷史行為數據（如移動路徑、交互頻率、動作偏好）和當前的動態空間交互運載環境，建立個性化的觀眾行為模型，預測觀眾將要轉向、駐足觀察某物體或繼續前行的可能性，進而基于路徑預測的結果，提前渲染觀眾可能接觸到的虛擬場景和反饋機制，從而避免因加載延遲導致的視覺卡頓、反饋錯位及沉浸感下降等問題，提升交互連貫性和沉浸感。

（2）動作捕捉技術持續提升模擬復雜運動的能力。傳統VR電影的運動映射十分有限，只能停留在相對小幅度的運動范圍，如行走、骨骼運動等。而VR大空間則運用了線下大空間娛樂技術(Location?Based Entertainment, LBE)，其運動映射體驗涉及射擊、大規模行走、跳躍等更為復雜的肢體動作，但現有動作捕捉技術存在精準性和實時性等問題，難以支撐具有復雜人物運動的敘事情節，如奔跑、跳躍、旋轉等。未來的運動映射技術需更加關注虛擬空間中運動的連續性，通過引入更先進的路徑規劃算法與場景自適應技術，以實現虛擬角色在空間中的平滑運動。當然，在技術發展的同時相關設備需向小型化和輕量化方向邁進。例如，通過整合可穿戴傳感器與嵌入式IMU，減少對外部攝像頭的依賴，實現更便捷的動作捕捉。同時，探索無接觸的動作識別技術，以顯著減少觀眾的佩戴負擔，為自由運動提供更大的可能性。

（3）智能體驅動實現涌現敘事。智能體可結合真實機器人軌跡與虛擬環境，模擬復雜運動模式，學習如何繞過障礙物、與物體或角色交互，或依據虛擬場景特征（如重力、地形）調整行動策略。這使VR電影敘事中的動態行為生成成為可能。進一步而言，智能體可根據劇情實時生成行動路徑，并同時生成與這些行為相關的語言描述（如指令或對話）。例如，在追逐、逃跑、探索等場景中，角色的行為可由模型動態生成，使敘事更具交互性和隨機性。

5 結語

在空間智能技術的驅動下，VR電影正在逐漸突破傳統影像的“空間困境”，構建起與人類感知深度耦合的敘事范式，并通過實時追蹤技術、多模態映射技術、三維生成技術及空間推理技術等手段，使虛擬環境能夠更加自然地與觀眾的感知模型對接，從而帶來更加真實、連貫的沉浸體驗。面向未來，在可持續發展與跨學科協作的深度框架下，VR電影也將不斷與人工智能、計算機視覺、空間計算、多模態交互等多領域技術相融合，并真正意義地全面邁入空間智能的新階段，成為VR電影創制的重要驅動力。尤其是伴隨以DeepSeek為代表的AI大模型與多模態交互的底層技術轉型，空間智能技術集群不僅使虛擬世界能夠“理解”并“適應”觀眾的凝視邏輯，更在深層次上重構影像創作的本體論框架，為影像藝術的發展注入更多的前沿科技屬性。

參考文獻

（向下滑動閱讀）

[1] LI F. With spatial intelligence, AI will understand the real world[EB/OL]. [2025?01?03].https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_

understand_the_real_world?subtitle=en.

[2] GARDNER H. Frames of Mind: The Theory of Multiple Intelligences. 10th Anniversary Edition (2nd ed.) [M]. New York: Basic Books, 1983: 179?215.

[3] 陳焱松,周雯.人工智能影像敘事的涌現化生成[J].當代電影,2024(05):14?20.

[4] HOFFMAN H G. Physically touching virtual objects using tactile augmentation enhances the realism of virtual environments[C]//IEEE Virtual Reality Annual International Symposium. Atlanta, GA, USA: IEEE, 1998:59?63.

[5] THOMAS J, ROSENBERG E S. Reactive Alignment of Virtual and Physical Environments Using Redirected Walking[C]//IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops. Atlanta, GA, USA: IEEE, 2020:317?323.

[6] HEESEOK O, WOOKHO S. Cybersickness and Its Severity Arising from Virtual Reality Content: A Comprehensive Study[J]. Sensors (Basel), 2022, 22(4):1314.

[7] CREEM-REGEHR S H, STEFANUCCI J K, BODENHEIMER B. Perceiving distance in virtual reality: theoretical insights from contemporary technologies[J]. Philosophical Transactions of the Royal Society B: Biological Sciences, 2023, 378.

[8] 吳際,李會杰.認知空間映射及其神經機制[J].心理科學進展,2025,33(01):62?76.

[9] KAUR D P, BHARDWAJ V, MALHOTRA P, et al. Vision?based intelligent systems: State of the art and perspectives[J]. AIP Conf. Proc., 2024, 3209(1).

[10] NGUYEN T H, YUAN S, XIE L. VR?SLAM: A Visual?Range Simultaneous Localization and Mapping System using Monocular Camera and Ultra?wideband Sensors[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2303.10903.

[11] LAI T. A Review on Visual?SLAM: Advancements from Geometric Modelling to Learning?based Semantic Scene Understanding[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2209.05222.

[12] ARONOV D, NEVERS R, TANK D W. Mapping of a non?spatial dimension by the hippocampal?entorhinal circuit[J]. Nature, 2017, 543(7647):719?722.

[13] BAO X, GJORGIEVA E, SHANAHAN L K, et al. Grid?like neural representations support olfactory navigation of a two?dimensional odor space[J]. Neuron, 2019, 102(5).

[14] KILLIAN N J, JUTRAS M J, BUFFALO E A. A map of visual space in the primate entorhinal cortex[J]. Nature, 2012, 491(7426):761?764.

[15] ZHAO J, ZHANG C. Acoustic rendering and spatialization of 3D sound in virtual environments[C]// Proceedings of the 11th Sound and Music Computing Conference, 2015: 85?91.

[16] KUMAR S, GREEN M. The impact of binaural audio cues on spatial perception in virtual reality[J]. Journal of Virtual Reality and Broadcasting, 2020, 17(2): 61?73.

[17] 陳焱松,王之綱.嗅覺的景觀：“氣味電影”的記憶、情感與敘事[J].藝術傳播研究, 2022(01):31?38.

[18] SNAVELY N, SEITZ S M, SZELISKI R. Photo tourism: Exploring photo collections in 3D[C]//ACM SIGGRAPH 2006 Papers. ACM, 2006:835?846.

[19] GOESELE M, SCHINDLER K. Multi?View Stereo[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3):625?633.

[20] ZHANG L, PAN J, GETTIG J, et al. VRCopilot: Authoring 3D Layouts with Generative AI Models in VR[EB/OL].(2024?08?18)[2025?01?21].https://arxiv.org/pdf/2408.09382.

[21] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748?8763.

[22] ALAYRAC J B, DONAHUE J, LUC P, et al. Flamingo: a visual language model for few?shot learning[J]. Advances in neural information processing systems, 2022, 35: 23716?23736.

[23] O'NEILL A, REHMAN A, GUPTA A, et al. Open x?embodiment: Robotic learning datasets and rt?x models[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2310.08864.

[24] BROHAN A, BROWN N, CARBAJAL J, et al. Rt?1: Robotics transformer for real?world control at scale[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2212.06817.

[25] BROHAN A, BROWN N, CARBAJAL J, et al. Rt?2: Vision?language?action models transfer web knowledge to robotic control[EB/OL].[2025?01?21]. https://arxiv.org/pdf/2307.15818.

【項目信息】中央高校基本科研業務費專項資金資助項目“智能媒體時代中國文化對外傳播敘事策略與效果研究”（123330009）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.