網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

預(yù)測下一個像素還需要幾年？谷歌：五年夠了

2025-11-26 15:48:35　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

既然語言可以當(dāng)序列來學(xué)，那圖像能不能也當(dāng)序列來學(xué)？

通過將圖像表示為像素序列，先前的研究表明通過下一像素預(yù)測，可以以一種簡單、端到端的方式同時學(xué)習(xí)視覺識別與生成。

從概念上講，下一像素預(yù)測非常容易擴展，因為它是無監(jiān)督學(xué)習(xí)：無需任何人工標(biāo)注。同時，將圖像表示為像素序列，也對圖像結(jié)構(gòu)施加了最少的歸納偏置。

然而，盡管像素級端到端建模在早期被證明是可行的，但這一范式近年來卻不再流行。

其主要原因在于出現(xiàn)了計算效率更高的方法，例如：使用視覺 tokenizer 進行 patch 級別學(xué)習(xí)。

盡管研究重心已經(jīng)發(fā)生轉(zhuǎn)移，但一個簡單卻極其關(guān)鍵的問題仍未被回答：我們距離真正大規(guī)模擴展下一像素預(yù)測，還有多遠(yuǎn)？

不可否認(rèn)，相比自然語言中的下一詞預(yù)測，下一像素預(yù)測要困難得多，主要有以下幾點原因：

首先，像素的語義信息極低。一個句子里的詞通常包含豐富含義，而一個像素只是一點顏色信息，兩者差距巨大。
其次，像素之間的空間關(guān)系非常復(fù)雜，不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響，還受到圖像中那些與它不相鄰的物體和結(jié)構(gòu)的影響。
第三，隨著圖像分辨率升高，下一像素預(yù)測的計算量會急劇增加。例如，要生成一張 128 × 128 的圖片，一個自回歸模型必須逐個預(yù)測 16,384 個像素，一步都不能少。

在這篇論文中，來自 Google DeepMind 的研究者分析了下一像素預(yù)測在圖像識別與圖像生成兩類任務(wù)中的擴展特性（scaling properties）。

本文首先在固定的 32×32 像素分辨率下開展研究，在這一分辨率下，圖像已開始呈現(xiàn)清晰的結(jié)構(gòu)與可辨識的物體交互，因此可被視為對原生高分辨率圖像的一種有意義的近似。

實驗基于下一像素預(yù)測損失進行了初始 scaling 實驗。如圖 1 (a) 所示，結(jié)果表明：相較于文本 token，原始像素的學(xué)習(xí)需要顯著更高（10–20 倍）的最優(yōu) token-parameter 比例。更具體地，要實現(xiàn)計算最優(yōu)平衡，像素模型所需的 token-per-parameter 至少比語言模型高一個數(shù)量級（約 400 vs. 20）。

這一初步發(fā)現(xiàn)促使研究者進一步深入三個核心問題。第一，我們?nèi)绾慰煽康卦u估這些模型的性能，尤其是在較低分辨率下（低分辨率便于開展大量實驗）？第二，基于下一像素預(yù)測損失得出的 scaling 規(guī)律，是否與更有意義的下游任務(wù)（如分類與圖像補全）的 scaling 行為一致？第三，不同圖像分辨率下的 scaling 趨勢會如何變化？

為回答這些問題，本文圍繞三類指標(biāo)進行了系列可控實驗。

在固定的 32×32 分辨率下，實驗結(jié)果（見圖 1 (b)）顯示：最優(yōu)的 scaling 策略高度依賴目標(biāo)任務(wù)，其中圖像生成質(zhì)量需要比分類任務(wù)或下一像素預(yù)測任務(wù)更大的 token-parameter 比例。此外，這些 scaling 動態(tài)并非靜態(tài)不變；對 16×16 與 64×64 等不同分辨率的研究顯示：隨著分辨率提升，模型規(guī)模的增長必須顯著快于數(shù)據(jù)規(guī)模的增長。

最后，鑒于訓(xùn)練算力正以每年四到五倍的速度增長，本文預(yù)測逐像素建模方式在未來五年內(nèi)將變得可行。

論文標(biāo)題：Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
論文地址：https://arxiv.org/pdf/2511.08704

方法介紹

本文從 32×32 分辨率的圖像出發(fā)，在多種 IsoFlops（等算力）配置下訓(xùn)練了一系列 Transformer 模型，最大計算量達(dá)到 7e19 FLOPs，并從三個不同指標(biāo)對其性能進行評估：下一像素預(yù)測目標(biāo)、ImageNet 分類準(zhǔn)確率以及以 Fréchet Distance 衡量的生成質(zhì)量。結(jié)果發(fā)現(xiàn)：

首先，最佳擴展策略強烈依賴任務(wù)類型：即使在固定的 32×32 分辨率下，分類任務(wù)與生成任務(wù)的最優(yōu) scaling 需求也完全不同，其中生成任務(wù)要達(dá)到最優(yōu)效果所需的數(shù)據(jù)規(guī)模增長速度是分類任務(wù)的三到五倍。
其次，隨著圖像分辨率的提升，最優(yōu) scaling 策略顯示模型規(guī)模必須比數(shù)據(jù)規(guī)模增長得更快。更令人意外的是，根據(jù)趨勢外推，像素級模型的主要瓶頸并不是訓(xùn)練數(shù)據(jù)，而是計算量。

本文采用 Transformer 架構(gòu)進行研究，共四種規(guī)模，參數(shù)從 2800 萬到 4.49 億不等。Transformer 架構(gòu)的詳細(xì)信息列在表 1 中。

本文在 JFT-300M 數(shù)據(jù)集上進行預(yù)訓(xùn)練，該數(shù)據(jù)集包含 3 億張多樣化圖像，規(guī)模是 ImageNet ILSVRC 2012 訓(xùn)練集的 10 倍以上。在分辨率為 32×32 的條件下，對數(shù)據(jù)集完整遍歷一遍相當(dāng)于處理超過 3000 億個像素。訓(xùn)練過程采用標(biāo)準(zhǔn)的 Inception 風(fēng)格隨機裁剪，并以 50% 概率進行水平翻轉(zhuǎn)。

在評估上，本文進行了兩種評估方式，即圖像分類和圖像補全。

實驗及結(jié)果

像素是否遵循與文本相同的規(guī)律？

答案是肯定的：對原始像素預(yù)測的擴展趨勢與文本類似、可預(yù)測，但效率要低得多。由于單個像素所攜帶的語義信息遠(yuǎn)少于語言 token，本文估計模型在學(xué)習(xí)原始像素時，需要比語言模型多 10–20 倍的 token-per-parameter 才能達(dá)到有效學(xué)習(xí)。

本文進一步計算了在不同訓(xùn)練 FLOPs 下的最優(yōu) token-per-parameter 比例，并與典型語言模型進行比較。如圖 1 (a) 所示，即便在超過 10^21 FLOPs 的訓(xùn)練預(yù)算下，學(xué)習(xí)原始像素仍然需要比語言 token 多 10–20 倍的數(shù)據(jù)量。

這表明，即便在低分辨率 32×32 圖像中，單個像素的語義信息密度仍遠(yuǎn)低于語言 token，后者本身就是一種壓縮且意義集中的信息單位。例如，cat 這個詞是高度壓縮的符號，攜帶著大量抽象信息：它是一種動物，有毛，會喵叫，有胡須。而單個像素本身幾乎不包含語義，因為它的顏色值可能同時對應(yīng)貓、汽車或天空的一部分。

總的來說，實驗結(jié)果顯示，下一像素預(yù)測的最優(yōu)擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預(yù)測。

最優(yōu) scaling 是否能直接遷移到下游任務(wù)？

答案是不行，至少不是以一種簡單方式。在固定的 32×32 分辨率下，由下一像素預(yù)測損失得到的最優(yōu)擴展策略對圖像生成來說并非最優(yōu)。具體而言，要獲得良好的生成質(zhì)量，需要一種更加數(shù)據(jù)驅(qū)動的 scaling 方式，即數(shù)據(jù)規(guī)模的增長速度必須明顯快于模型規(guī)模的增長速度。

不同任務(wù)的最優(yōu) scaling 存在顯著差異。如圖 1 (b) 所示，基于獨立 IsoFlops 配置得到的最優(yōu) token-to-parameter 比例在下一像素預(yù)測損失、ImageNet 分類 top-1 準(zhǔn)確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別。

隨著圖像分辨率提升，最優(yōu) scaling 會改變嗎？

答案是會的。隨著圖像分辨率的提高，最優(yōu)擴展策略從在 32×32 分辨率下對模型規(guī)模與數(shù)據(jù)規(guī)模的平衡，轉(zhuǎn)變?yōu)樵诟叻直媛氏旅黠@偏向更大的模型，而非更多的數(shù)據(jù)。

圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的，在更高分辨率下訓(xùn)練模型能夠提升下游任務(wù)表現(xiàn)。

對于圖像分類，從 16×16 切換到 32×32 時能夠帶來明顯提升，但在 FLOPs 超過 1e20 的情況下，從 32×32 增加到 64×64 僅帶來輕微改進。這表明：對于 ImageNet 分類任務(wù)，在 32×32 之后，進一步提升分辨率的收益趨于減弱。

相比之下，對于圖像生成，32×32 附近的 scaling 趨勢并未飽和，將分辨率從 32×32 提升至 64×64 能帶來顯著改進。直觀來看，分辨率提高后，單像素的信息密度下降，但像素之間的視覺結(jié)構(gòu)變得更復(fù)雜、更真實。抽象語義在低分辨率即可有效捕獲，而細(xì)粒度紋理則需要更高分辨率。

我們距離原始下一像素預(yù)測還有多遠(yuǎn)？

目前由于巨大的計算成本而難以實際執(zhí)行，但逐像素建模在未來五年內(nèi)仍是一條可行路徑，并能達(dá)到具有競爭力的性能。其主要瓶頸是計算量，而不是訓(xùn)練數(shù)據(jù)的可獲得性。本文預(yù)計在未來五年內(nèi)，基于原始像素的學(xué)習(xí)將成為一條可行的發(fā)展方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.