網易首頁 > 網易號 > 正文申請入駐

南洋理工等提出Puffin：像攝影師一樣思考，統一相機理解與生成

2025-10-21 20:56:32　來源: 算法與數學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

最近，AI在空間感知和內容生成方面的能力又有了新突破。來自新加坡南洋理工大學、商湯科技、密西根大學和馬普所的研究者們聯手，帶來了一個名為 Puffin 的統一多模態模型。它巧妙地將兩個看似獨立的任務——從圖像中理解相機參數（比如拍攝角度、焦距）和根據相機參數生成圖像——融合在了一起。這讓AI不僅能“看懂”一張照片是怎么拍的，還能化身“攝影師”，從任意指定的視角“拍”出新照片。

這篇論文的核心亮點在于提出了一種“用相機思考（Thinking with Camera）”的新范式。簡單來說，就是把原本冰冷的、數字化的相機參數（比如旋轉角度、視野大小）翻譯成攝影師口中的“行話”（比如“荷蘭角傾斜”、“廣角鏡頭”、“低角度拍攝”）。這樣一來，大型語言模型就能更好地理解和推理這些空間信息，像一個經驗豐富的攝影師一樣思考，從而在理解和生成任務上都表現得更出色。

論文標題 : Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
作者 : Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy
機構 : 新加坡南洋理工大學，商湯科技，密西根大學、Max-Planck Institute for Informatics
論文地址 : https://arxiv.org/abs/2510.08673
項目主頁 : https://kangliao929.github.io/projects/puffin/
代碼倉庫 : https://github.com/kangliao929/puffin

背景：從“各自為戰”到“統一戰場”

在過去，AI處理與相機相關的問題時，通常是“兵分兩路”。

一條路是 相機為中心的理解（Camera-Centric Understanding），比如計算機視覺里的相機姿態估計，它的任務是從一張給定的圖片中，反推出拍攝這張照片時相機的位置、朝向、焦距等參數。這對于三維重建、AR/VR等應用至關重要。

另一條路是 相機為中心的生成（Camera-Centric Generation），比如計算機圖形學和AIGC里的可控圖像生成。我們給模型指定一個虛擬的相機位姿，讓它生成該視角下的圖像。這在電影特效、游戲場景生成、虛擬試衣等領域大有可為。

雖然這兩個任務都圍繞“相機”展開，但它們就像一枚硬幣的兩面，長期以來被分開研究，各自發展。研究者們敏銳地意識到，如果能將兩者統一起來，不僅能讓模型的能力更全面，還能讓理解和生成任務相互促進，實現“1+1>2”的效果。Puffin模型正是在這樣的背景下應運而生。

方法：“像語言一樣思考相機”

Puffin模型的核心思想是構建一個統一的框架，能夠同時學習相機理解和生成任務。下面我們來看看它是如何實現的。

“用相機思考”范式

CV君認為，這篇論文最有趣和最具啟發性的地方，就是這個“用相機思考”的范式。傳統方法通常直接處理數值化的相機參數，或者學習它們的幾何表示，但這些對于大型語言模型（LMM）來說并不“友好”。

Puffin另辟蹊徑，它將相機參數與專業的攝影術語聯系起來。例如，它不直接處理-45°到45°的相機側傾角（Roll），而是將其映射為“荷蘭角（Dutch Angle）”；不直接處理視野（FoV），而是將其映射為“標準”、“廣角”、“長焦”等術語。通過這種方式，模型在進行相機參數預測時，實際上是在進行一種空間推理：它會分析圖像中的視覺線索（比如地平線的傾斜、物體的透視關系），然后像人類一樣思考“嗯，這張圖看起來有點歪，應該是用了荷蘭角拍攝”，最終在標簽中記錄推理過程，并在標簽中給出具體的參數預測。

這種方法巧妙地將LMM強大的語言推理能力引入到幾何問題中，讓模型不僅知其然（預測出參數），更知其所以然（理解參數背后的視覺表現）。

Puffin-4M：大規模訓練數據

為了訓練Puffin這樣強大的模型，一個大規模、高質量的數據集必不可少。為此，研究者們構建了 Puffin-4M 數據集，它包含了 400萬個“視覺-語言-相機”三元組。這個數據集覆蓋了各種場景和相機配置，為模型提供了豐富的學習素材。

數據集的構建流程也很有意思，它結合了現有的多個360°全景數據集，通過渲染生成帶有精確相機參數的圖像，并利用大型語言模型自動生成描述性文本和前文提到的“思考過程”文本。

與之前的數據集相比，Puffin-4M在規模、多樣性以及是否包含空間推理文本方面，都有著顯著優勢。

統一的訓練策略

Puffin在一個統一的框架中，混合了多種訓練任務，包括相機參數理解、可控圖像生成、圖像描述等。通過精心設計的訓練配方，模型在各項能力上都得到了充分的鍛煉。

實驗效果：全面超越專用模型

是騾子是馬，拉出來遛遛。Puffin在相機理解和可控生成兩個核心任務上，都表現出了卓越的性能，甚至超越了許多為單一任務專門設計的模型。

相機理解能力

在MegaDepth、TartanAir等多個公開基準數據集上，Puffin在預測相機內參（焦距）和外參（旋轉、平移）方面，其誤差都顯著低于之前的方法。這證明了“用相機思考”范式的有效性。

可控生成能力

在相機可控的圖像生成任務上，Puffin同樣表現出色。給定文本描述和目標相機參數，它生成的圖像不僅內容準確，而且相機視角也控制得非常精準。從下圖的誤差圖（Error Map）可以看出，Puffin生成的圖像在相機姿態上與目標真值的偏差（Median Error）遠小于其他多模態模型。

定量結果也證實了這一點，無論是在相機參數的直接對比還是在圖像相似度指標上，Puffin都取得了最佳或次佳的成績。

下圖直觀地展示了Puffin生成的相機參數分布與真實值（Ground Truth）的分布高度吻合，而之前的方法則有較大偏差。

豐富的應用潛力

得益于其統一的設計和強大的指令遵循能力，Puffin還能解鎖許多有趣的應用：

空間想象 ：給定一張圖片，想象從不同視角（比如更高、更左）看會是什么樣子。
世界探索 ：像玩FPS游戲一樣，在場景中“走動”，從不同位置生成連續的視圖，甚至可以用于三維重建。
攝影指導 ：分析一張照片，并給出如何改進構圖和拍攝參數的建議。
3D對象植入 ：準確預測出真實照片的相機參數，從而可以將虛擬的3D模型無縫地植入到場景中。

總結

總而言之，Puffin模型通過“用相機思考”這一創新范式，成功地統一了相機為中心的理解與生成任務，為實現更全面的空間智能AI邁出了堅實的一步。作者已經開源了代碼和數據集構建流程，這無疑將極大地推動相關領域的研究。

你覺得這個技術未來會用在哪些場景？一起來聊聊吧！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.