![]()
編輯|Panda、澤南
前兩天,OpenAI 的 ChatGPT Images 2.0 驚艷了世界,其在實(shí)測(cè)中的表現(xiàn)整體上已經(jīng)超過(guò)了之前 SOTA 的 Nano Banaba Pro。
就在人們還在驚嘆于 AI 圖像生成的卓越能力時(shí),谷歌 DeepMind 卻放出了一篇重量級(jí)論文《Image Generators are Generalist Vision Learners》,其中系統(tǒng)性地證明了之前許多人已經(jīng)有過(guò)的直覺(jué):圖像生成器就是強(qiáng)大的通用視覺(jué)學(xué)習(xí)器
要想理解物理世界,何必依靠專(zhuān)用模型?
![]()
- 論文標(biāo)題:Image Generators are Generalist Vision Learners
- 論文地址:https://arxiv.org/abs/2604.20329v1
- 項(xiàng)目地址:https://vision-banana.github.io/
Google DeepMind 的研究發(fā)現(xiàn),類(lèi)似于 LLM 的生成式預(yù)訓(xùn)練會(huì)讓模型涌現(xiàn)出語(yǔ)言理解和推理能力,圖像生成訓(xùn)練能使模型學(xué)習(xí)到強(qiáng)大且通用的視覺(jué)表征,從而在各種視覺(jué)任務(wù)中實(shí)現(xiàn) SOTA 的性能。
基于這一發(fā)現(xiàn),他們還基于 Nano Banana Pro 構(gòu)建了一個(gè)通用模型Vision Banana,并取得了相當(dāng)亮眼的表現(xiàn),媲美甚至超越了零樣本領(lǐng)域?qū)<夷P停热缬糜诜指钊蝿?wù)的 Segment Anything Model 3、用于深度估計(jì)的 Depth Anything 系列。
![]()
作者 Shangbang Long 的分享推文
這項(xiàng)研究意義重大,其表明圖像生成可以作為視覺(jué)任務(wù)的統(tǒng)一通用接口。DeepMind 也在論文中表示:「我們可能正見(jiàn)證計(jì)算機(jī)視覺(jué)領(lǐng)域的重大范式轉(zhuǎn)變,其中生成式視覺(jué)預(yù)訓(xùn)練在構(gòu)建同時(shí)支持生成和理解的基礎(chǔ)視覺(jué)模型中扮演核心角色。」
這篇論文由多位核心作者和貢獻(xiàn)者共同完成,另外,我們還能看到謝賽寧和何愷明等熟悉的名字。謝賽寧連發(fā)數(shù)推,強(qiáng)調(diào)了通用模型的崛起與超越:像 Vision Banana 這樣的單一多模態(tài)通用模型,在圖像分割、邊緣檢測(cè)等底層感知任務(wù)上首次擊敗了 SAM3 和 DepthAnything3 等頂尖的領(lǐng)域?qū)S媚P汀R酝灰暈椴煌瑔?wèn)題的感知任務(wù),現(xiàn)在都可以通過(guò)簡(jiǎn)單的提示詞在統(tǒng)一的系統(tǒng)下完成。
![]()
下面我們就來(lái)詳細(xì)看看這項(xiàng)重量級(jí)研究成果。
研究背景
生成即理解的猜想由來(lái)已久
在 AI 研究領(lǐng)域,一個(gè)長(zhǎng)期存在的直覺(jué)是:能夠創(chuàng)造視覺(jué)內(nèi)容的模型,理應(yīng)也能理解視覺(jué)內(nèi)容。畢竟,若模型不能深刻理解物體的形狀、語(yǔ)義和空間關(guān)系,它又怎能生成如此高保真、語(yǔ)義精確的圖像?
然而現(xiàn)實(shí)卻與這一直覺(jué)存在明顯落差。長(zhǎng)期以來(lái),視覺(jué)表征學(xué)習(xí)領(lǐng)域的主流方法并不屬于生成式建模家族,而是以有監(jiān)督的判別式學(xué)習(xí)、對(duì)比學(xué)習(xí)、Bootstrapping 和自編碼等方法為主導(dǎo)。盡管早期的生成式視覺(jué)預(yù)訓(xùn)練探索展現(xiàn)出了有潛力的擴(kuò)展行為,其效果卻始終落后于非生成式模型。
在自然語(yǔ)言處理領(lǐng)域,這一局面早已被打破。
GPT 系列模型證明,生成式預(yù)訓(xùn)練(即讓模型預(yù)測(cè)下一個(gè) token)能夠讓 LLM 涌現(xiàn)出強(qiáng)大的語(yǔ)言理解與推理能力,再經(jīng)過(guò)指令微調(diào),模型就能在各類(lèi)任務(wù)上實(shí)現(xiàn) SOTA 性能。
DeepMind 的研究者們不禁發(fā)問(wèn):圖像生成能否扮演與文本生成類(lèi)似的角色?圖像生成器,是不是也就是通用視覺(jué)學(xué)習(xí)器?
核心方法
把所有視覺(jué)理解任務(wù)「?jìng)窝b」成畫(huà)圖任務(wù)
該論文提出的Vision Banana,基座就是那個(gè)名為 Nano Banana Pro (NBP) 的圖像生成模型。
研究團(tuán)隊(duì)沒(méi)有給這個(gè)生成模型增加任何專(zhuān)門(mén)用于視覺(jué)理解(如檢測(cè)、分割)的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),也沒(méi)有修改底層架構(gòu)。他們的方法極其巧妙 ——將視覺(jué)感知任務(wù)的輸出空間,全部參數(shù)化為 RGB 圖像格式。具體來(lái)說(shuō),他們?cè)谠嫉膱D像生成訓(xùn)練數(shù)據(jù)中,摻入了一小部分視覺(jué)任務(wù)數(shù)據(jù),進(jìn)行輕量級(jí)的指令微調(diào)。
為了教導(dǎo)模型聽(tīng)懂指令,并直接「畫(huà)」出視覺(jué)任務(wù)的結(jié)果,Vision Banana 實(shí)行圖像化輸出解碼。例如在語(yǔ)義分割中,提示詞會(huì)規(guī)定「把滑板畫(huà)成純黃色 <255, 255, 0>」,模型就會(huì)直接生成一張帶有顏色掩碼的 RGB 圖片,隨后只需將對(duì)應(yīng)顏色的像素提取出來(lái),就能完美還原出分割結(jié)果。
![]()
在做 3D 深度估計(jì)時(shí),他們則設(shè)計(jì)了一套嚴(yán)格可逆的數(shù)學(xué)映射機(jī)制(利用冪律變換),將物理世界中從 0 到無(wú)窮大的度量深度映射到 RGB 色彩立方體的邊緣上。模型輸出一張漸變的「?jìng)紊蕡D」,解碼后就能直接換算成精準(zhǔn)的物理深度距離。
![]()
通過(guò)這種用畫(huà)圖來(lái)做題的方法,一個(gè)統(tǒng)一的 Vision Banana 模型在 2D 和 3D 視覺(jué)理解任務(wù)上,打敗或逼平了一眾目前頂尖的各類(lèi)專(zhuān)業(yè)模型:
![]()
深度估計(jì)的精妙色彩映射
在所有可視化方案中,深度估計(jì)的 RGB 編碼設(shè)計(jì)最為精巧,值得單獨(dú)展開(kāi)。
深度值的范圍是 [0, ∞),而 RGB 值的范圍是有界的 [0, 1]^3,如何在二者之間建立一個(gè)雙射(bijection),是工程設(shè)計(jì)的核心挑戰(zhàn)。
研究者采用了冪變換對(duì)深度值進(jìn)行「彎曲」處理,將原始深度映射為 [0, 1) 區(qū)間內(nèi)的歸一化距離,再沿 RGB 立方體的棱邊進(jìn)行線(xiàn)性插值 —— 這條路徑類(lèi)似于三維希爾伯特曲線(xiàn)的第一次迭代,從黑色到白色遍歷立方體的棱邊。由于冪變換和線(xiàn)性插值均可嚴(yán)格求逆,整個(gè)映射構(gòu)成了度量深度到 RGB 空間的完美雙射,模型推理生成的彩色圖像可以無(wú)損地解碼回精確的度量深度值。
此外,研究團(tuán)隊(duì)還特意對(duì)近場(chǎng)物體賦予更高的顏色分辨率 —— 因?yàn)閷?duì)機(jī)器人操作、深度傳感等應(yīng)用而言,近距離物體的精確度量往往比遠(yuǎn)景更為關(guān)鍵。
表面法向量估計(jì)
相比深度,表面法向量的可視化方案則要自然得多。表面法向量由 (x, y, z) 三個(gè)分量構(gòu)成,值域?yàn)?[-1.0, 1.0],與 RGB 顏色通道天然對(duì)齊。研究者采用右手坐標(biāo)系(+x 向右、+y 向上、+z 朝外),將三個(gè)方向分量直接映射為 R、G、B 通道:朝左的表面呈現(xiàn)粉紅色調(diào),朝上的呈淺綠色,面向攝像機(jī)的呈淺藍(lán) / 紫色。
這種內(nèi)在的對(duì)齊使得法向量估計(jì)幾乎無(wú)需額外設(shè)計(jì),直接沿用生成模型的原生能力即可。
實(shí)驗(yàn)結(jié)果
全面超越零樣本專(zhuān)家模型
2D 理解:分割任務(wù)
語(yǔ)義分割方面,Vision Banana 在 Cityscapes 數(shù)據(jù)集(19 類(lèi)城市場(chǎng)景)上以 mIoU 0.699 超越 SAM 3 的 0.652,領(lǐng)跑所有零樣本遷移方法,進(jìn)一步縮小了與閉集專(zhuān)有模型(如 SegMan-L)之間的差距。
實(shí)例分割方面,Vision Banana 采用「逐類(lèi)推理」策略應(yīng)對(duì)實(shí)例數(shù)量未知的挑戰(zhàn):每次推理僅針對(duì)一個(gè)類(lèi)別,讓模型自動(dòng)為不同實(shí)例動(dòng)態(tài)分配顏色,推理后通過(guò)顏色聚類(lèi)解碼出各個(gè)實(shí)例掩模。在 SA-Co/Gold 數(shù)據(jù)集上,Vision Banana 的 pmF1 為 0.540,與 DINO-X(0.552)基本持平,遠(yuǎn)超 Gemini 2.5(0.461)和 OWLv2(0.420)等方法。
指稱(chēng)表達(dá)式分割(Referring Expression Segmentation)是最能體現(xiàn)語(yǔ)言-視覺(jué)深度融合的任務(wù) —— 模型需要理解自由形式的自然語(yǔ)言查詢(xún),并據(jù)此精確分割對(duì)應(yīng)目標(biāo)。
Vision Banana 在此任務(wù)上表現(xiàn)尤為出色:在 RefCOCOg 數(shù)據(jù)集(UMD 驗(yàn)證集)上取得 cIoU 0.738,在 ReasonSeg 驗(yàn)證集上取得 gIoU 0.793,均超越 SAM 3 Agent(0.734 / 0.770)。更令人驚喜的是,當(dāng)與 Gemini 2.5 Pro 結(jié)合使用時(shí),Vision Banana 在 ReasonSeg 上甚至能超越部分在訓(xùn)練集上經(jīng)過(guò)完整訓(xùn)練的非零樣本方法。研究者觀(guān)察到,Vision Banana 繼承自生成式預(yù)訓(xùn)練的多模態(tài)智能,使其能更有效地推理「分割什么」,這正是判別式模型難以企及的優(yōu)勢(shì)。
![]()
3D 理解:深度與法向量估計(jì)
單目度量深度估計(jì)是 3D 理解中公認(rèn)的難題:2D 投影會(huì)不可逆地丟失三維幾何信息,而在沒(méi)有多視圖視差線(xiàn)索的單目設(shè)定下難度更甚。現(xiàn)有 SOTA 方法(如 Depth Anything V3、UniK3D、MoGe-2)通常需要在訓(xùn)練或推理階段引入相機(jī)內(nèi)參(camera intrinsics)來(lái)消解固有歧義,并配以專(zhuān)門(mén)設(shè)計(jì)的架構(gòu)和損失函數(shù)。
Vision Banana 的策略截然不同:完全不使用相機(jī)參數(shù)(訓(xùn)練和推理階段均如此),純粹依靠基礎(chǔ)模型在大規(guī)模圖像生成預(yù)訓(xùn)練中習(xí)得的關(guān)于物體尺寸、距離關(guān)系的幾何先驗(yàn)來(lái)推斷絕對(duì)尺度。更值得注意的是,所有訓(xùn)練數(shù)據(jù)均來(lái)自合成渲染引擎,沒(méi)有使用任何真實(shí)世界的深度數(shù)據(jù),且所有評(píng)估基準(zhǔn)的真實(shí)訓(xùn)練數(shù)據(jù)均被排除在外。
在六大公開(kāi)基準(zhǔn)上,Vision Banana 的平均 δ_1 精度達(dá)到 0.882,在與 Depth Anything V3 直接可比的四個(gè)數(shù)據(jù)集(NYU、ETH3D、DIODE-indoor、KITTI)上平均 δ_1 為 0.929,超過(guò) Depth Anything V3 的 0.918。與 UniK3D 相比領(lǐng)先近 6 個(gè)百分點(diǎn),絕對(duì)相對(duì)誤差(AbsRel)比 MoGe-2 低約 20%。
![]()
研究者還做了一個(gè)頗具說(shuō)服力的 vibe test:論文作者本人在鹿苑寺附近用普通智能手機(jī)拍攝了一張照片,Vision Banana 估計(jì)出照片中標(biāo)注點(diǎn)的深度為 13.71 米,實(shí)際用谷歌地圖測(cè)量的距離為 12.87 米,絕對(duì)相對(duì)誤差僅約 0.065。
![]()
表面法向量估計(jì)方面,Vision Banana 在四個(gè)公開(kāi)基準(zhǔn)的室內(nèi)場(chǎng)景平均值上取得最低的均值和中值角度誤差,在戶(hù)外場(chǎng)景上與 Lotus-2 相當(dāng)。定性對(duì)比顯示,Vision Banana 生成的法向量圖視覺(jué)保真度和細(xì)節(jié)粒度均明顯優(yōu)于 Lotus-2,即使在定量指標(biāo)略遜的室外數(shù)據(jù)集(Virtual KITTI 2)上,其視覺(jué)質(zhì)量依然更勝一籌。
生成能力驗(yàn)證
輕量級(jí)指令微調(diào)是否會(huì)損傷 Nano Banana Pro 原有的圖像生成能力?
研究團(tuán)隊(duì)在 GenAI-Bench(文字生成圖像)和 ImgEdit(圖像編輯)兩個(gè)基準(zhǔn)上進(jìn)行了人類(lèi)偏好評(píng)估,Vision Banana 對(duì) Nano Banana Pro 的勝率分別為 53.5% 和 47.8%(見(jiàn)圖 1)。
這一結(jié)果清晰地表明,經(jīng)過(guò)指令微調(diào)的 Vision Banana 與基礎(chǔ)模型的生成能力基本持平,「通曉理解,不忘生成」。
范式轉(zhuǎn)變正在發(fā)生
這項(xiàng)研究的意義不僅在于一組亮眼的基準(zhǔn)數(shù)字,更在于它提出并系統(tǒng)性驗(yàn)證了兩個(gè)深刻的論斷。
其一,圖像生成器是通用視覺(jué)學(xué)習(xí)器。與 LLM 領(lǐng)域的生成式預(yù)訓(xùn)練類(lèi)比,圖像生成訓(xùn)練使模型習(xí)得的視覺(jué)先驗(yàn)不僅服務(wù)于生成任務(wù),更已內(nèi)化為通用的視覺(jué)理解能力。這些生成先驗(yàn)甚至能超越為特定任務(wù)精心設(shè)計(jì)的專(zhuān)有架構(gòu)和訓(xùn)練范式。
其二,圖像生成是視覺(jué)任務(wù)的通用接口。正如文本生成統(tǒng)一了語(yǔ)言理解、推理、數(shù)學(xué)、代碼、智能體等各類(lèi)任務(wù),將視覺(jué)任務(wù)輸出參數(shù)化為 RGB 圖像,使得圖像生成也能成為視覺(jué)任務(wù)的統(tǒng)一界面。單一提示詞驅(qū)動(dòng)、單一模型權(quán)重共享 —— 這種優(yōu)雅的統(tǒng)一性與 LLM 在語(yǔ)言領(lǐng)域的成功如出一轍。
此外,研究者還指出,生成式建模天然能處理視覺(jué)任務(wù)中的固有歧義。判別式專(zhuān)家模型通常需要特殊的架構(gòu)設(shè)計(jì)(如 SAM 系列對(duì)同一輸入返回多個(gè)分割掩模并只對(duì)其中一個(gè)計(jì)算損失)來(lái)應(yīng)對(duì)一對(duì)多的輸出分布,而生成模型學(xué)習(xí)完整的數(shù)據(jù)分布,歧義由設(shè)計(jì)本身優(yōu)雅化解。
當(dāng)然,研究者也坦承了若干局限與未來(lái)方向。當(dāng)前評(píng)估專(zhuān)注于單目圖像輸入,多視圖和視頻輸入的擴(kuò)展是自然的下一步,而視頻生成器是否能習(xí)得更豐富的時(shí)序感知視覺(jué)表征,是一個(gè)極具吸引力的研究方向。另一值得期待的方向是探索基礎(chǔ)視覺(jué)模型與 LLM 的協(xié)同融合,以增強(qiáng)跨模態(tài)推理。此外,與輕量級(jí)專(zhuān)家模型相比,基于圖像生成器的推理開(kāi)銷(xiāo)仍然顯著偏高,加速與成本優(yōu)化將是走向廣泛部署的必由之路。
結(jié)語(yǔ)
Vision Banana 的出現(xiàn),讓「能生成即能理解」這一長(zhǎng)期猜想從直覺(jué)變?yōu)榱擞袚?jù)可查的事實(shí)。
圖像生成,可能正在成為計(jì)算機(jī)視覺(jué)的「GPT 時(shí)刻」,就像生成式預(yù)訓(xùn)練重塑了自然語(yǔ)言處理領(lǐng)域的格局一樣,以 Nano Banana Pro 為代表的大規(guī)模圖像生成模型,或許正是構(gòu)建真正意義上的「基礎(chǔ)視覺(jué)模型」所缺失的那塊拼圖。
DeepMind 在論文結(jié)尾寫(xiě)道:「這些生成先驗(yàn)超越了視覺(jué)專(zhuān)家模型長(zhǎng)期依賴(lài)的專(zhuān)有架構(gòu)與訓(xùn)練范式。我們正在目睹計(jì)算機(jī)視覺(jué)的范式轉(zhuǎn)變,生成式視覺(jué)預(yù)訓(xùn)練將在構(gòu)建同時(shí)支持生成與理解的基礎(chǔ)視覺(jué)模型中扮演核心角色,并為基于視覺(jué)的 AGI鋪平道路。」
這一判斷,值得整個(gè)計(jì)算機(jī)視覺(jué)社區(qū)認(rèn)真對(duì)待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.