![]()
強化學習(RL)在大語言模型和 2D 圖像生成中大獲成功后,首次被系統性拓展到文本到 3D 生成領域!面對 3D 物體更高的空間復雜性、全局幾何一致性和局部紋理精細化的雙重挑戰,研究者們首次系統研究了 RL 在 3D 自回歸生成中的應用!
來自上海人工智能實驗室、西北工業大學、香港中文大學、北京大學、香港科技大學等機構的研究者提出了AR3D-R1,這是首個強化學習增強的文本到 3D 自回歸模型。該工作系統研究了獎勵設計、RL 算法和評估基準,并提出Hi-GRPO——一種層次化強化學習范式,通過分離全局結構推理與局部紋理精修來優化 3D 生成。同時引入全新基準MME-3DR,用于評估 3D 生成模型的隱式推理能力。
實驗表明 AR3D-R1 在 Kernel Distance 和 CLIP Score 上均取得顯著提升,達到 0.156 和 29.3 的優異成績。
![]()
- 論文標題:Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
- 代碼鏈接:
- https://github.com/Ivan-Tang-3D/3DGen-R1
- 論文鏈接:https://arxiv.org/pdf/2512.10949
![]()
強化學習應用于 3D 生成的挑戰
![]()
強化學習在大語言模型(如 DeepSeek-R1)和 2D 圖像生成中已被證明能夠有效提升模型性能,但將 RL 應用于 3D 生成仍面臨獨特挑戰:
- 空間復雜性更高:3D 物體需要同時保持全局幾何一致性和局部紋理精細度,比 2D 圖像的空間復雜性高出一個維度。
- 獎勵設計困難:如何設計既能評估全局結構又能捕捉局部細節的獎勵函數是關鍵難題。
- 現有基準局限:當前的文本到 3D 基準主要關注物體多樣性,無法有效評估模型的隱式推理能力。
- 算法敏感性:3D 生成對獎勵設計和 RL 算法的選擇高度敏感,需要系統性的研究來指導實踐。
在此前的工作中,3D 模型大多停留在「預訓練 + 微調」框架,真正將 RL 引入 3D 生成的一步,還無人系統邁出。
從「推理」到「造物」:
AR3D-R1 的整體框架
AR3D-R1 構建在離散 3D 生成模型 ShapeLLM-Omni 之上,引入了一個推理驅動的 3D 生成流程:
- 先想一想:模型會先根據文本提示生成一段高層語義推理(類似 CoT),規劃出物體的大致結構、關系與風格。
- 再動手造:隨后,推理結果會作為「中間規劃」,直接指導離散 token 的 3D 生成過程。
這讓 AR3D-R1 不再是「憑本能畫 3D」,而是先構思、再搭骨架、最后上細節——真正把 RL 驅動的「會想」能力,遷移到了「會造」的 3D 世界里。
獎勵設計與 RL 算法的系統性研究
在獎勵設計方面,研究者評估了多個獎勵維度和模型選擇,得出以下關鍵發現:
![]()
- 人類偏好對齊至關重要:與人類審美偏好對齊的獎勵信號能夠顯著提升生成質量。
- 通用多模態模型具有魯棒性:令人驚訝的是,通用多模態模型在評估 3D 相關屬性時表現出強大的魯棒性,有時甚至優于專門的 3D 評估模型。
![]()
在 RL 算法研究方面,研究者深入分析了 GRPO 的多個變體,包括標準 GRPO、引入 token 級平均與動態采樣的 DAPO,和更偏序列級操作的 GSPO 等:
- Token 級優化更有效:相比響應級優化,token 級別的損失平均能更好地捕捉生成過程中的全局結構差異。
- 動態采樣策略足以穩定訓練:對于文本到 3D 生成任務,無需復雜的訓練穩定技術。
- 數據規模和迭代次數的擴展均能有效提升性能:但一味堆疊 RL 迭代反而可能引入過擬合或模式崩塌,需要精細校準。
這些發現為 3D 生成中的 RL 應用提供了系統性指導。
Hi-GRPO:
層次化強化學習范式
![]()
受 3D 生成自然層次結構的啟發——模型首先構建全局幾何,然后精修局部紋理(這與人類 3D 感知過程一致),研究者提出了 Hi-GRPO(Hierarchical GRPO)層次化強化學習范式。
Hi-GRPO 的核心思想是在單次迭代中聯合優化層次化 3D 生成:
- 全局規劃階段:模型首先針對文本提示進行全局結構規劃,生成高層語義推理來指導粗糙形狀生成。
- 局部精修階段:模型接收初始推理結果和原始文本提示,生成紋理精細化的 3D 物體。
- 專用獎勵集成:為粗糙階段和精修階段分別設計專門的獎勵模型集成,計算組相對獎勵來優化兩個階段。
通過這種層次化設計,Hi-GRPO 能夠在保證全局幾何一致性的同時,精細優化局部紋理細節,實現從粗到精的漸進式 3D 生成。
MME-3DR:
評估 3D 生成推理能力的新基準
![]()
現有的文本到 3D 基準,更多考察的是物體多樣性,而不是推理能力。模型在簡單 prompt 上表現不錯,但一遇到復雜要求就頻頻「翻車」。為此,論文提出了全新的推理型 3D 基準 MME-3DR,覆蓋五大高難類別:
- 空間與結構幾何(復雜構型、相對位置關系)
- 機械可供性(能不能「看起來就能動起來」)
- 生物與有機形狀
- 依賴世界知識的罕見物體
- 風格化表達(風格、材質、抽象度的綜合控制)
在這一更苛刻的場景下:傳統 text-to-3D 模型普遍出現崩塌,要么結構錯亂,要么風格跑偏。而 RL 訓練之后的 AR3D-R1 在五大類別上都有明顯提升,同時在多個 benchmark 上超越 Trellis 等模型,展現出更強的隱式 3D 推理能力。
定性定量分析
![]()
![]()
定量實驗結果表明,AR3D-R1 在多個指標上取得了顯著提升:
- Kernel Distance 達到 0.156,表明生成的 3D 物體分布與真實數據分布高度接近。
- CLIP Score 達到 29.3,表明生成結果與文本提示的語義對齊質量顯著提升。
- 在 Toys4K 等現有數據集和新引入的 MME-3DR 基準上均展現出優越性能,在幾何一致性和紋理質量方面均有明顯改進。
![]()
定性實驗中,研究者展示了 AR3D-R1 在推理過程中清晰的從粗到精進展。模型首先構建合理的全局幾何結構,然后逐步添加細節紋理,生成高質量的 3D 物體。可視化結果驗證了 Hi-GRPO 層次化范式和專用獎勵集成策略在提升 3D 生成質量方面的有效性。
AR3D-R1 的成功標志著強化學習在文本到 3D 生成領域的首次系統性突破,為構建更智能、更具推理能力的 3D 生成模型開辟了新方向。未來,這樣的能力可以自然延伸到:
- 具身智能與機器人:從自然語言到 3D 場景再到交互決策。
- 游戲與內容創作:快速生成結構合理、細節豐富的 3D 資源。
- AR/VR 與數字孿生:在復雜約束和多模態反饋下進行 3D 推理與生成。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.