文章來源:我愛計算機視覺(ID:aicvml)
最近,AI在空間感知和內容生成方面的能力又有了新突破。來自新加坡南洋理工大學、商湯科技、密西根大學和馬普所的研究者們聯手,帶來了一個名為 Puffin 的統一多模態模型。它巧妙地將兩個看似獨立的任務——從圖像中理解相機參數(比如拍攝角度、焦距)和根據相機參數生成圖像——融合在了一起。這讓AI不僅能“看懂”一張照片是怎么拍的,還能化身“攝影師”,從任意指定的視角“拍”出新照片。
這篇論文的核心亮點在于提出了一種“用相機思考(Thinking with Camera)”的新范式。簡單來說,就是把原本冰冷的、數字化的相機參數(比如旋轉角度、視野大小)翻譯成攝影師口中的“行話”(比如“荷蘭角傾斜”、“廣角鏡頭”、“低角度拍攝”)。這樣一來,大型語言模型就能更好地理解和推理這些空間信息,像一個經驗豐富的攝影師一樣思考,從而在理解和生成任務上都表現得更出色。
![]()
論文標題 : Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
作者 : Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy
機構 : 新加坡南洋理工大學,商湯科技,密西根大學、Max-Planck Institute for Informatics
論文地址 : https://arxiv.org/abs/2510.08673
項目主頁 : https://kangliao929.github.io/projects/puffin/
代碼倉庫 : https://github.com/kangliao929/puffin
背景:從“各自為戰”到“統一戰場”
在過去,AI處理與相機相關的問題時,通常是“兵分兩路”。
一條路是 相機為中心的理解(Camera-Centric Understanding),比如計算機視覺里的相機姿態估計,它的任務是從一張給定的圖片中,反推出拍攝這張照片時相機的位置、朝向、焦距等參數。這對于三維重建、AR/VR等應用至關重要。
另一條路是 相機為中心的生成(Camera-Centric Generation),比如計算機圖形學和AIGC里的可控圖像生成。我們給模型指定一個虛擬的相機位姿,讓它生成該視角下的圖像。這在電影特效、游戲場景生成、虛擬試衣等領域大有可為。
雖然這兩個任務都圍繞“相機”展開,但它們就像一枚硬幣的兩面,長期以來被分開研究,各自發展。研究者們敏銳地意識到,如果能將兩者統一起來,不僅能讓模型的能力更全面,還能讓理解和生成任務相互促進,實現“1+1>2”的效果。Puffin模型正是在這樣的背景下應運而生。
![]()
方法:“像語言一樣思考相機”
Puffin模型的核心思想是構建一個統一的框架,能夠同時學習相機理解和生成任務。下面我們來看看它是如何實現的。
![]()
“用相機思考”范式
CV君認為,這篇論文最有趣和最具啟發性的地方,就是這個“用相機思考”的范式。傳統方法通常直接處理數值化的相機參數,或者學習它們的幾何表示,但這些對于大型語言模型(LMM)來說并不“友好”。
Puffin另辟蹊徑,它將相機參數與專業的攝影術語聯系起來。例如,它不直接處理-45°到45°的相機側傾角(Roll),而是將其映射為“荷蘭角(Dutch Angle)”;不直接處理視野(FoV),而是將其映射為“標準”、“廣角”、“長焦”等術語。通過這種方式,模型在進行相機參數預測時,實際上是在進行一種空間推理:它會分析圖像中的視覺線索(比如地平線的傾斜、物體的透視關系),然后像人類一樣思考“嗯,這張圖看起來有點歪,應該是用了荷蘭角拍攝”,最終在
標簽中記錄推理過程,并在
標簽中給出具體的參數預測。
![]()
這種方法巧妙地將LMM強大的語言推理能力引入到幾何問題中,讓模型不僅知其然(預測出參數),更知其所以然(理解參數背后的視覺表現)。
Puffin-4M:大規模訓練數據
為了訓練Puffin這樣強大的模型,一個大規模、高質量的數據集必不可少。為此,研究者們構建了 Puffin-4M 數據集,它包含了 400萬個“視覺-語言-相機”三元組。這個數據集覆蓋了各種場景和相機配置,為模型提供了豐富的學習素材。
![]()
數據集的構建流程也很有意思,它結合了現有的多個360°全景數據集,通過渲染生成帶有精確相機參數的圖像,并利用大型語言模型自動生成描述性文本和前文提到的“思考過程”文本。
![]()
與之前的數據集相比,Puffin-4M在規模、多樣性以及是否包含空間推理文本方面,都有著顯著優勢。
![]()
統一的訓練策略
Puffin在一個統一的框架中,混合了多種訓練任務,包括相機參數理解、可控圖像生成、圖像描述等。通過精心設計的訓練配方,模型在各項能力上都得到了充分的鍛煉。
![]()
實驗效果:全面超越專用模型
是騾子是馬,拉出來遛遛。Puffin在相機理解和可控生成兩個核心任務上,都表現出了卓越的性能,甚至超越了許多為單一任務專門設計的模型。
相機理解能力
在MegaDepth、TartanAir等多個公開基準數據集上,Puffin在預測相機內參(焦距)和外參(旋轉、平移)方面,其誤差都顯著低于之前的方法。這證明了“用相機思考”范式的有效性。
![]()
可控生成能力
在相機可控的圖像生成任務上,Puffin同樣表現出色。給定文本描述和目標相機參數,它生成的圖像不僅內容準確,而且相機視角也控制得非常精準。從下圖的誤差圖(Error Map)可以看出,Puffin生成的圖像在相機姿態上與目標真值的偏差(Median Error)遠小于其他多模態模型。
![]()
定量結果也證實了這一點,無論是在相機參數的直接對比還是在圖像相似度指標上,Puffin都取得了最佳或次佳的成績。
![]()
下圖直觀地展示了Puffin生成的相機參數分布與真實值(Ground Truth)的分布高度吻合,而之前的方法則有較大偏差。
![]()
豐富的應用潛力
得益于其統一的設計和強大的指令遵循能力,Puffin還能解鎖許多有趣的應用:
空間想象 :給定一張圖片,想象從不同視角(比如更高、更左)看會是什么樣子。
世界探索 :像玩FPS游戲一樣,在場景中“走動”,從不同位置生成連續的視圖,甚至可以用于三維重建。
攝影指導 :分析一張照片,并給出如何改進構圖和拍攝參數的建議。
3D對象植入 :準確預測出真實照片的相機參數,從而可以將虛擬的3D模型無縫地植入到場景中。
總而言之,Puffin模型通過“用相機思考”這一創新范式,成功地統一了相機為中心的理解與生成任務,為實現更全面的空間智能AI邁出了堅實的一步。作者已經開源了代碼和數據集構建流程,這無疑將極大地推動相關領域的研究。
你覺得這個技術未來會用在哪些場景?一起來聊聊吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.