<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      視覺GPT時刻來了!DeepMind用Vision Banana證明「生成即理解」

      0
      分享至



      編輯|Panda、澤南

      前兩天,OpenAI 的 ChatGPT Images 2.0 驚艷了世界,其在實測中的表現整體上已經超過了之前 SOTA 的 Nano Banaba Pro。

      就在人們還在驚嘆于 AI 圖像生成的卓越能力時,谷歌 DeepMind 卻放出了一篇重量級論文《Image Generators are Generalist Vision Learners》,其中系統性地證明了之前許多人已經有過的直覺:圖像生成器就是強大的通用視覺學習器

      要想理解物理世界,何必依靠專用模型?



      • 論文標題:Image Generators are Generalist Vision Learners
      • 論文地址:https://arxiv.org/abs/2604.20329v1
      • 項目地址:https://vision-banana.github.io/

      Google DeepMind 的研究發現,類似于 LLM 的生成式預訓練會讓模型涌現出語言理解和推理能力,圖像生成訓練能使模型學習到強大且通用的視覺表征,從而在各種視覺任務中實現 SOTA 的性能。

      基于這一發現,他們還基于 Nano Banana Pro 構建了一個通用模型Vision Banana,并取得了相當亮眼的表現,媲美甚至超越了零樣本領域專家模型,比如用于分割任務的 Segment Anything Model 3、用于深度估計的 Depth Anything 系列。



      作者 Shangbang Long 的分享推文

      這項研究意義重大,其表明圖像生成可以作為視覺任務的統一通用接口。DeepMind 也在論文中表示:「我們可能正見證計算機視覺領域的重大范式轉變,其中生成式視覺預訓練在構建同時支持生成和理解的基礎視覺模型中扮演核心角色。」

      這篇論文由多位核心作者和貢獻者共同完成,另外,我們還能看到謝賽寧和何愷明等熟悉的名字。謝賽寧連發數推,強調了通用模型的崛起與超越:像 Vision Banana 這樣的單一多模態通用模型,在圖像分割、邊緣檢測等底層感知任務上首次擊敗了 SAM3 和 DepthAnything3 等頂尖的領域專用模型。以往被視為不同問題的感知任務,現在都可以通過簡單的提示詞在統一的系統下完成。



      下面我們就來詳細看看這項重量級研究成果。

      研究背景

      生成即理解的猜想由來已久

      在 AI 研究領域,一個長期存在的直覺是:能夠創造視覺內容的模型,理應也能理解視覺內容。畢竟,若模型不能深刻理解物體的形狀、語義和空間關系,它又怎能生成如此高保真、語義精確的圖像?

      然而現實卻與這一直覺存在明顯落差。長期以來,視覺表征學習領域的主流方法并不屬于生成式建模家族,而是以有監督的判別式學習、對比學習、Bootstrapping 和自編碼等方法為主導。盡管早期的生成式視覺預訓練探索展現出了有潛力的擴展行為,其效果卻始終落后于非生成式模型。

      在自然語言處理領域,這一局面早已被打破。

      GPT 系列模型證明,生成式預訓練(即讓模型預測下一個 token)能夠讓 LLM 涌現出強大的語言理解與推理能力,再經過指令微調,模型就能在各類任務上實現 SOTA 性能。

      DeepMind 的研究者們不禁發問:圖像生成能否扮演與文本生成類似的角色?圖像生成器,是不是也就是通用視覺學習器?

      核心方法

      把所有視覺理解任務「偽裝」成畫圖任務

      該論文提出的Vision Banana,基座就是那個名為 Nano Banana Pro (NBP) 的圖像生成模型。

      研究團隊沒有給這個生成模型增加任何專門用于視覺理解(如檢測、分割)的復雜網絡結構,也沒有修改底層架構。他們的方法極其巧妙 ——將視覺感知任務的輸出空間,全部參數化為 RGB 圖像格式。具體來說,他們在原始的圖像生成訓練數據中,摻入了一小部分視覺任務數據,進行輕量級的指令微調。

      為了教導模型聽懂指令,并直接「畫」出視覺任務的結果,Vision Banana 實行圖像化輸出解碼。例如在語義分割中,提示詞會規定「把滑板畫成純黃色 <255, 255, 0>」,模型就會直接生成一張帶有顏色掩碼的 RGB 圖片,隨后只需將對應顏色的像素提取出來,就能完美還原出分割結果。



      在做 3D 深度估計時,他們則設計了一套嚴格可逆的數學映射機制(利用冪律變換),將物理世界中從 0 到無窮大的度量深度映射到 RGB 色彩立方體的邊緣上。模型輸出一張漸變的「偽色彩圖」,解碼后就能直接換算成精準的物理深度距離。



      通過這種用畫圖來做題的方法,一個統一的 Vision Banana 模型在 2D 和 3D 視覺理解任務上,打敗或逼平了一眾目前頂尖的各類專業模型:



      深度估計的精妙色彩映射

      在所有可視化方案中,深度估計的 RGB 編碼設計最為精巧,值得單獨展開。

      深度值的范圍是 [0, ∞),而 RGB 值的范圍是有界的 [0, 1]^3,如何在二者之間建立一個雙射(bijection),是工程設計的核心挑戰。

      研究者采用了冪變換對深度值進行「彎曲」處理,將原始深度映射為 [0, 1) 區間內的歸一化距離,再沿 RGB 立方體的棱邊進行線性插值 —— 這條路徑類似于三維希爾伯特曲線的第一次迭代,從黑色到白色遍歷立方體的棱邊。由于冪變換和線性插值均可嚴格求逆,整個映射構成了度量深度到 RGB 空間的完美雙射,模型推理生成的彩色圖像可以無損地解碼回精確的度量深度值。

      此外,研究團隊還特意對近場物體賦予更高的顏色分辨率 —— 因為對機器人操作、深度傳感等應用而言,近距離物體的精確度量往往比遠景更為關鍵。

      表面法向量估計

      相比深度,表面法向量的可視化方案則要自然得多。表面法向量由 (x, y, z) 三個分量構成,值域為 [-1.0, 1.0],與 RGB 顏色通道天然對齊。研究者采用右手坐標系(+x 向右、+y 向上、+z 朝外),將三個方向分量直接映射為 R、G、B 通道:朝左的表面呈現粉紅色調,朝上的呈淺綠色,面向攝像機的呈淺藍 / 紫色。

      這種內在的對齊使得法向量估計幾乎無需額外設計,直接沿用生成模型的原生能力即可。

      實驗結果

      全面超越零樣本專家模型

      2D 理解:分割任務

      語義分割方面,Vision Banana 在 Cityscapes 數據集(19 類城市場景)上以 mIoU 0.699 超越 SAM 3 的 0.652,領跑所有零樣本遷移方法,進一步縮小了與閉集專有模型(如 SegMan-L)之間的差距。

      實例分割方面,Vision Banana 采用「逐類推理」策略應對實例數量未知的挑戰:每次推理僅針對一個類別,讓模型自動為不同實例動態分配顏色,推理后通過顏色聚類解碼出各個實例掩模。在 SA-Co/Gold 數據集上,Vision Banana 的 pmF1 為 0.540,與 DINO-X(0.552)基本持平,遠超 Gemini 2.5(0.461)和 OWLv2(0.420)等方法。

      指稱表達式分割(Referring Expression Segmentation)是最能體現語言-視覺深度融合的任務 —— 模型需要理解自由形式的自然語言查詢,并據此精確分割對應目標。

      Vision Banana 在此任務上表現尤為出色:在 RefCOCOg 數據集(UMD 驗證集)上取得 cIoU 0.738,在 ReasonSeg 驗證集上取得 gIoU 0.793,均超越 SAM 3 Agent(0.734 / 0.770)。更令人驚喜的是,當與 Gemini 2.5 Pro 結合使用時,Vision Banana 在 ReasonSeg 上甚至能超越部分在訓練集上經過完整訓練的非零樣本方法。研究者觀察到,Vision Banana 繼承自生成式預訓練的多模態智能,使其能更有效地推理「分割什么」,這正是判別式模型難以企及的優勢。



      3D 理解:深度與法向量估計

      單目度量深度估計是 3D 理解中公認的難題:2D 投影會不可逆地丟失三維幾何信息,而在沒有多視圖視差線索的單目設定下難度更甚。現有 SOTA 方法(如 Depth Anything V3、UniK3D、MoGe-2)通常需要在訓練或推理階段引入相機內參(camera intrinsics)來消解固有歧義,并配以專門設計的架構和損失函數。

      Vision Banana 的策略截然不同:完全不使用相機參數(訓練和推理階段均如此),純粹依靠基礎模型在大規模圖像生成預訓練中習得的關于物體尺寸、距離關系的幾何先驗來推斷絕對尺度。更值得注意的是,所有訓練數據均來自合成渲染引擎,沒有使用任何真實世界的深度數據,且所有評估基準的真實訓練數據均被排除在外。

      在六大公開基準上,Vision Banana 的平均 δ_1 精度達到 0.882,在與 Depth Anything V3 直接可比的四個數據集(NYU、ETH3D、DIODE-indoor、KITTI)上平均 δ_1 為 0.929,超過 Depth Anything V3 的 0.918。與 UniK3D 相比領先近 6 個百分點,絕對相對誤差(AbsRel)比 MoGe-2 低約 20%。



      研究者還做了一個頗具說服力的 vibe test:論文作者本人在鹿苑寺附近用普通智能手機拍攝了一張照片,Vision Banana 估計出照片中標注點的深度為 13.71 米,實際用谷歌地圖測量的距離為 12.87 米,絕對相對誤差僅約 0.065。



      表面法向量估計方面,Vision Banana 在四個公開基準的室內場景平均值上取得最低的均值和中值角度誤差,在戶外場景上與 Lotus-2 相當。定性對比顯示,Vision Banana 生成的法向量圖視覺保真度和細節粒度均明顯優于 Lotus-2,即使在定量指標略遜的室外數據集(Virtual KITTI 2)上,其視覺質量依然更勝一籌。

      生成能力驗證

      輕量級指令微調是否會損傷 Nano Banana Pro 原有的圖像生成能力?

      研究團隊在 GenAI-Bench(文字生成圖像)和 ImgEdit(圖像編輯)兩個基準上進行了人類偏好評估,Vision Banana 對 Nano Banana Pro 的勝率分別為 53.5% 和 47.8%(見圖 1)。

      這一結果清晰地表明,經過指令微調的 Vision Banana 與基礎模型的生成能力基本持平,「通曉理解,不忘生成」。

      范式轉變正在發生

      這項研究的意義不僅在于一組亮眼的基準數字,更在于它提出并系統性驗證了兩個深刻的論斷。

      其一,圖像生成器是通用視覺學習器。與 LLM 領域的生成式預訓練類比,圖像生成訓練使模型習得的視覺先驗不僅服務于生成任務,更已內化為通用的視覺理解能力。這些生成先驗甚至能超越為特定任務精心設計的專有架構和訓練范式。

      其二,圖像生成是視覺任務的通用接口。正如文本生成統一了語言理解、推理、數學、代碼、智能體等各類任務,將視覺任務輸出參數化為 RGB 圖像,使得圖像生成也能成為視覺任務的統一界面。單一提示詞驅動、單一模型權重共享 —— 這種優雅的統一性與 LLM 在語言領域的成功如出一轍。

      此外,研究者還指出,生成式建模天然能處理視覺任務中的固有歧義。判別式專家模型通常需要特殊的架構設計(如 SAM 系列對同一輸入返回多個分割掩模并只對其中一個計算損失)來應對一對多的輸出分布,而生成模型學習完整的數據分布,歧義由設計本身優雅化解。

      當然,研究者也坦承了若干局限與未來方向。當前評估專注于單目圖像輸入,多視圖和視頻輸入的擴展是自然的下一步,而視頻生成器是否能習得更豐富的時序感知視覺表征,是一個極具吸引力的研究方向。另一值得期待的方向是探索基礎視覺模型與 LLM 的協同融合,以增強跨模態推理。此外,與輕量級專家模型相比,基于圖像生成器的推理開銷仍然顯著偏高,加速與成本優化將是走向廣泛部署的必由之路。

      結語

      Vision Banana 的出現,讓「能生成即能理解」這一長期猜想從直覺變為了有據可查的事實。

      圖像生成,可能正在成為計算機視覺的「GPT 時刻」,就像生成式預訓練重塑了自然語言處理領域的格局一樣,以 Nano Banana Pro 為代表的大規模圖像生成模型,或許正是構建真正意義上的「基礎視覺模型」所缺失的那塊拼圖。

      DeepMind 在論文結尾寫道:「這些生成先驗超越了視覺專家模型長期依賴的專有架構與訓練范式。我們正在目睹計算機視覺的范式轉變,生成式視覺預訓練將在構建同時支持生成與理解的基礎視覺模型中扮演核心角色,并為基于視覺的 AGI鋪平道路。」

      這一判斷,值得整個計算機視覺社區認真對待。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      看短劇掙買菜錢?62歲老人四部手機兩年“薅”兩千多元 律師提醒有風險

      看短劇掙買菜錢?62歲老人四部手機兩年“薅”兩千多元 律師提醒有風險

      封面新聞
      2026-04-23 19:56:03
      受賄4269萬余元,山東省農業發展信貸擔保有限責任公司原黨委書記、董事長張安民一審被判12年,并處罰金360萬元

      受賄4269萬余元,山東省農業發展信貸擔保有限責任公司原黨委書記、董事長張安民一審被判12年,并處罰金360萬元

      大風新聞
      2026-04-24 12:23:03
      歌爾股份2025年營收965.5億元,歸母凈利潤增長近五成,2026年Q1延續增勢

      歌爾股份2025年營收965.5億元,歸母凈利潤增長近五成,2026年Q1延續增勢

      風口財經
      2026-04-24 08:23:17
      特朗普:美國“無意影響”伊朗參加2026年美加墨世界杯

      特朗普:美國“無意影響”伊朗參加2026年美加墨世界杯

      中國網
      2026-04-24 10:42:04
      2013年,王石和前妻同框,參加岳父王寧告別儀式,一張罕見的留影

      2013年,王石和前妻同框,參加岳父王寧告別儀式,一張罕見的留影

      喜歡歷史的阿繁
      2026-04-24 12:03:28
      阿里納斯:詹姆斯是最有統治力的老將,這數據99%球員都是頂薪

      阿里納斯:詹姆斯是最有統治力的老將,這數據99%球員都是頂薪

      懂球帝
      2026-04-23 23:24:51
      在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

      在醫院你遭遇過最羞恥的事是什么?網友:一個比一個炸裂啊

      解讀熱點事件
      2026-02-04 00:05:07
      李小冉離婚了!?

      李小冉離婚了!?

      八卦瘋叔
      2026-04-22 11:02:16
      寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

      寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

      番外行
      2026-04-23 07:43:15
      神秘消失數月后突然現身!美國最頭疼的人,悄悄到了巴格達

      神秘消失數月后突然現身!美國最頭疼的人,悄悄到了巴格達

      混沌錄
      2026-04-20 17:21:17
      人類滅亡大局已定?科學家算出人類滅絕的日期,人類準備好了嗎?

      人類滅亡大局已定?科學家算出人類滅絕的日期,人類準備好了嗎?

      安逸安逸
      2026-04-02 17:48:28
      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      史之銘
      2026-04-24 14:42:57
      遼寧鐵人隊長邦本宜裕在中超聯賽失去了往日在中甲聯賽那種風光

      遼寧鐵人隊長邦本宜裕在中超聯賽失去了往日在中甲聯賽那種風光

      歲月有情1314
      2026-04-24 14:05:07
      28歲女孩好心收留19歲“弟弟”,卻被他殺害下身赤裸拋尸荒野

      28歲女孩好心收留19歲“弟弟”,卻被他殺害下身赤裸拋尸荒野

      三目觀史
      2026-04-23 23:46:07
      李斌回應樂道L90“背刺老車主”:“直接現金補償”訴求,公司當期將面臨數億元虧損

      李斌回應樂道L90“背刺老車主”:“直接現金補償”訴求,公司當期將面臨數億元虧損

      驅動中國
      2026-04-23 18:56:09
      大快人心!張敬軒復出泡湯,霍汶希被拖下水,英皇如坐針氈

      大快人心!張敬軒復出泡湯,霍汶希被拖下水,英皇如坐針氈

      一盅情懷
      2026-04-21 19:20:32
      賴清德竄訪失敗之際,1架大陸飛機抵臺,臺當局對訪問團提一要求

      賴清德竄訪失敗之際,1架大陸飛機抵臺,臺當局對訪問團提一要求

      林子說事
      2026-04-24 11:25:02
      伊朗議長:取消海上封鎖,全面停火才有意義

      伊朗議長:取消海上封鎖,全面停火才有意義

      澎湃新聞
      2026-04-23 02:08:03
      Coco又曝猛料!謝賢冬天解衣讓她取暖,把女兒珠寶讓她戴,太會了

      Coco又曝猛料!謝賢冬天解衣讓她取暖,把女兒珠寶讓她戴,太會了

      橙星文娛
      2026-04-24 12:12:33
      上海全市嚴厲整治!多區公布舉報平臺,人人可監督!一區最高獎勵50萬!

      上海全市嚴厲整治!多區公布舉報平臺,人人可監督!一區最高獎勵50萬!

      叮當當科技
      2026-04-24 12:37:22
      2026-04-24 15:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12847文章數 142635關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4牽手華為,價格依然"屠夫級"

      頭條要聞

      女子買二手奔馳里程數偏差20萬公里 看到事故記錄崩潰

      頭條要聞

      女子買二手奔馳里程數偏差20萬公里 看到事故記錄崩潰

      體育要聞

      里程碑之戰拖后腿,哈登18分8失誤

      娛樂要聞

      停工16個月!趙露思證實接拍新劇

      財經要聞

      19家企業要"鋁代銅",格力偏不

      汽車要聞

      YU7 GT 5 月上市!小米Vision GT概念車國內首秀

      態度原創

      藝術
      親子
      數碼
      家居
      公開課

      藝術要聞

      16幅 佐恩高清油畫 | 瑞典著名畫家

      親子要聞

      女子因遲遲沒懷孕被懷疑身體有問題,女子直接去醫院檢查自證清白

      數碼要聞

      DeepSeek:預計下半年昇騰950超節點批量上市后 V4-Pro模型價格會大幅下調

      家居要聞

      自然肌理 溫潤美學

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91在线资源| 亚洲色成人网站www永久四虎| 熟妇人妻无码中文字幕老熟妇| 巨大黑人极品videos精品| 茄子av| 国产人妻精品一区二区| 国产精品日韩av在线播放| 亚洲精品日韩在线观看| 亚洲色无码国产精品网站可下载 | 五月天黄色网| 性爱国产| 人妻系列无码专区免费视频| 亚洲成人动漫在线| 亚洲熟妇AV一区二区三区宅男| 婷婷久久香蕉五月综合加勒比| 达州市| 久久婷婷五月综合色一区二区| 制服丝袜无码| 精品人妻一区二区三区奶水| 91精品国产成人观看| 欧美性大战久久久久XXX| 亚洲国产欧美在线人成AAAA| 久久久综合结合狠狠狠97色 | 白嫩少妇激情无码| 豆花av| 精品福利一区二区三区免费视频| 亚洲国产精品羞羞| 国产成人精品综合| 丰满少妇大力进入| 国产美女主播一级成人毛片| 黑人异族巨大巨大巨粗| 日本一区二区亚洲三区| 亚洲男人天堂2021| 精品国产片一区二区三区| 大尺度无遮挡激烈床震网站| 中文字幕永久在线看| 国内精品久久久久久99蜜桃| 91国内精品久久精品一本| 亚洲日韩乱码中文无码蜜桃臀| 奉节县| 少妇特黄a一区二区三区|