<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      預測下一個像素還需要幾年?谷歌:五年夠了

      0
      分享至



      機器之心報道

      機器之心編輯部

      既然語言可以當序列來學,那圖像能不能也當序列來學?

      通過將圖像表示為像素序列,先前的研究表明通過下一像素預測,可以以一種簡單、端到端的方式同時學習視覺識別與生成。

      從概念上講,下一像素預測非常容易擴展,因為它是無監督學習:無需任何人工標注。同時,將圖像表示為像素序列,也對圖像結構施加了最少的歸納偏置。

      然而,盡管像素級端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

      其主要原因在于出現了計算效率更高的方法,例如:使用視覺 tokenizer 進行 patch 級別學習。

      盡管研究重心已經發生轉移,但一個簡單卻極其關鍵的問題仍未被回答:我們距離真正大規模擴展下一像素預測,還有多遠?

      不可否認,相比自然語言中的下一詞預測,下一像素預測要困難得多,主要有以下幾點原因:

      • 首先,像素的語義信息極低。一個句子里的詞通常包含豐富含義,而一個像素只是一點顏色信息,兩者差距巨大。
      • 其次,像素之間的空間關系非常復雜,不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結構的影響。
      • 第三,隨著圖像分辨率升高,下一像素預測的計算量會急劇增加。例如,要生成一張 128 × 128 的圖片,一個自回歸模型必須逐個預測 16,384 個像素,一步都不能少。

      在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預測在圖像識別與圖像生成兩類任務中的擴展特性(scaling properties)。

      本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現清晰的結構與可辨識的物體交互,因此可被視為對原生高分辨率圖像的一種有意義的近似。

      實驗基于下一像素預測損失進行了初始 scaling 實驗。如圖 1 (a) 所示,結果表明:相較于文本 token,原始像素的學習需要顯著更高(10–20 倍)的最優 token-parameter 比例。更具體地,要實現計算最優平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個數量級(約 400 vs. 20)。

      這一初步發現促使研究者進一步深入三個核心問題。第一,我們如何可靠地評估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實驗)?第二,基于下一像素預測損失得出的 scaling 規律,是否與更有意義的下游任務(如分類與圖像補全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢會如何變化?

      為回答這些問題,本文圍繞三類指標進行了系列可控實驗。

      在固定的 32×32 分辨率下,實驗結果(見圖 1 (b))顯示:最優的 scaling 策略高度依賴目標任務,其中圖像生成質量需要比分類任務或下一像素預測任務更大的 token-parameter 比例。此外,這些 scaling 動態并非靜態不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規模的增長必須顯著快于數據規模的增長。

      最后,鑒于訓練算力正以每年四到五倍的速度增長,本文預測逐像素建模方式在未來五年內將變得可行。



      • 論文標題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
      • 論文地址:https://arxiv.org/pdf/2511.08704

      方法介紹

      本文從 32×32 分辨率的圖像出發,在多種 IsoFlops(等算力)配置下訓練了一系列 Transformer 模型,最大計算量達到 7e19 FLOPs,并從三個不同指標對其性能進行評估:下一像素預測目標、ImageNet 分類準確率以及以 Fréchet Distance 衡量的生成質量。結果發現:

      • 首先,最佳擴展策略強烈依賴任務類型:即使在固定的 32×32 分辨率下,分類任務與生成任務的最優 scaling 需求也完全不同,其中生成任務要達到最優效果所需的數據規模增長速度是分類任務的三到五倍。
      • 其次,隨著圖像分辨率的提升,最優 scaling 策略顯示模型規模必須比數據規模增長得更快。更令人意外的是,根據趨勢外推,像素級模型的主要瓶頸并不是訓練數據,而是計算量。

      本文采用 Transformer 架構進行研究,共四種規模,參數從 2800 萬到 4.49 億不等。Transformer 架構的詳細信息列在表 1 中。



      本文在 JFT-300M 數據集上進行預訓練,該數據集包含 3 億張多樣化圖像,規模是 ImageNet ILSVRC 2012 訓練集的 10 倍以上。在分辨率為 32×32 的條件下,對數據集完整遍歷一遍相當于處理超過 3000 億個像素。訓練過程采用標準的 Inception 風格隨機裁剪,并以 50% 概率進行水平翻轉。

      在評估上,本文進行了兩種評估方式,即圖像分類和圖像補全。

      實驗及結果

      像素是否遵循與文本相同的規律?

      答案是肯定的:對原始像素預測的擴展趨勢與文本類似、可預測,但效率要低得多。由于單個像素所攜帶的語義信息遠少于語言 token,本文估計模型在學習原始像素時,需要比語言模型多 10–20 倍的 token-per-parameter 才能達到有效學習。



      本文進一步計算了在不同訓練 FLOPs 下的最優 token-per-parameter 比例,并與典型語言模型進行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓練預算下,學習原始像素仍然需要比語言 token 多 10–20 倍的數據量。

      這表明,即便在低分辨率 32×32 圖像中,單個像素的語義信息密度仍遠低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個詞是高度壓縮的符號,攜帶著大量抽象信息:它是一種動物,有毛,會喵叫,有胡須。而單個像素本身幾乎不包含語義,因為它的顏色值可能同時對應貓、汽車或天空的一部分。



      總的來說,實驗結果顯示,下一像素預測的最優擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預測。

      最優 scaling 是否能直接遷移到下游任務?

      答案是不行,至少不是以一種簡單方式。在固定的 32×32 分辨率下,由下一像素預測損失得到的最優擴展策略對圖像生成來說并非最優。具體而言,要獲得良好的生成質量,需要一種更加數據驅動的 scaling 方式,即數據規模的增長速度必須明顯快于模型規模的增長速度。

      不同任務的最優 scaling 存在顯著差異。如圖 1 (b) 所示,基于獨立 IsoFlops 配置得到的最優 token-to-parameter 比例在下一像素預測損失、ImageNet 分類 top-1 準確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別。

      隨著圖像分辨率提升,最優 scaling 會改變嗎?

      答案是會的。隨著圖像分辨率的提高,最優擴展策略從在 32×32 分辨率下對模型規模與數據規模的平衡,轉變為在更高分辨率下明顯偏向更大的模型,而非更多的數據。

      圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓練模型能夠提升下游任務表現。

      對于圖像分類,從 16×16 切換到 32×32 時能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進。這表明:對于 ImageNet 分類任務,在 32×32 之后,進一步提升分辨率的收益趨于減弱。

      相比之下,對于圖像生成,32×32 附近的 scaling 趨勢并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結構變得更復雜、更真實。抽象語義在低分辨率即可有效捕獲,而細粒度紋理則需要更高分辨率。



      我們距離原始下一像素預測還有多遠?

      目前由于巨大的計算成本而難以實際執行,但逐像素建模在未來五年內仍是一條可行路徑,并能達到具有競爭力的性能。其主要瓶頸是計算量,而不是訓練數據的可獲得性。本文預計在未來五年內,基于原始像素的學習將成為一條可行的發展方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      武大校花陳怡,嫁黑人丈夫卻被迫輪流接客,父親解救失敗后自縊

      武大校花陳怡,嫁黑人丈夫卻被迫輪流接客,父親解救失敗后自縊

      談史論天地
      2026-01-19 17:40:00
      歷史性突破!U23國足首進亞洲杯決賽

      歷史性突破!U23國足首進亞洲杯決賽

      財聯社
      2026-01-21 01:28:20
      湖南第一庸官,好面子導致政府負債1000億,為政績騙劉強東100億

      湖南第一庸官,好面子導致政府負債1000億,為政績騙劉強東100億

      芊芊子吟
      2026-01-15 10:20:03
      歐冠形勢:阿森納鎖定頭名!西甲第3提前淘汰,意甲冠軍瀕臨出局

      歐冠形勢:阿森納鎖定頭名!西甲第3提前淘汰,意甲冠軍瀕臨出局

      我愛英超
      2026-01-21 06:22:18
      西部大亂斗!森林狼墜落,湖人逆襲,NBA好戲開場!

      西部大亂斗!森林狼墜落,湖人逆襲,NBA好戲開場!

      江湖散客
      2026-01-22 00:27:11
      董方卓回應批評:希望國字號表現以后一直這么打我臉

      董方卓回應批評:希望國字號表現以后一直這么打我臉

      懂球帝
      2026-01-21 20:57:16
      貴州省委常委、貴陽市委書記胡忠雄增補為省政協委員

      貴州省委常委、貴陽市委書記胡忠雄增補為省政協委員

      澎湃新聞
      2026-01-21 13:07:07
      性生活不傷腎,豆制品不傷腎,真正傷腎的事一再被你忽略!30條建議送給腎友們

      性生活不傷腎,豆制品不傷腎,真正傷腎的事一再被你忽略!30條建議送給腎友們

      掌上腎醫
      2026-01-12 19:16:03
      林允兒美圖更新

      林允兒美圖更新

      小椰的奶奶
      2026-01-22 01:27:47
      9000mAh!新機官宣:1月27日,即將發布上市!

      9000mAh!新機官宣:1月27日,即將發布上市!

      科技堡壘
      2026-01-20 12:34:33
      郭艾倫23日復出,主場對陣同曦;張寧肌肉拉傷可能常規賽報銷

      郭艾倫23日復出,主場對陣同曦;張寧肌肉拉傷可能常規賽報銷

      孤影來客
      2026-01-22 00:42:08
      扎克伯格新AI團隊交付首批模型 Meta CTO:非常出色

      扎克伯格新AI團隊交付首批模型 Meta CTO:非常出色

      鳳凰網科技
      2026-01-21 18:49:07
      俄羅斯人自己先捅破了窗戶紙:外蒙古和遠東,怕不是要“回家”了

      俄羅斯人自己先捅破了窗戶紙:外蒙古和遠東,怕不是要“回家”了

      福建平子
      2026-01-20 06:52:46
      醫生曝王菲產檢細節?嫣然確診唇腭裂時,李亞鵬一句話讓王菲翻臉

      醫生曝王菲產檢細節?嫣然確診唇腭裂時,李亞鵬一句話讓王菲翻臉

      小徐講八卦
      2026-01-21 14:24:45
      當下,已經沒有人愿意好好上班了!

      當下,已經沒有人愿意好好上班了!

      黯泉
      2026-01-21 22:52:39
      華裔政治家族,卻遭特朗普清洗!特朗普如何扳倒“趙家人”?

      華裔政治家族,卻遭特朗普清洗!特朗普如何扳倒“趙家人”?

      觀察者海風
      2026-01-20 15:14:58
      輕斷食再次封神!研究證實:能讓肝臟脂肪在3個月內少25.5%!

      輕斷食再次封神!研究證實:能讓肝臟脂肪在3個月內少25.5%!

      健康之光
      2026-01-09 06:20:03
      安東尼奧被高高拋起!率隊創造奇跡,媒體人熱議:進決賽滿分操作

      安東尼奧被高高拋起!率隊創造奇跡,媒體人熱議:進決賽滿分操作

      奧拜爾
      2026-01-21 01:47:54
      初高中的區別:初中認真學,成績就不差;高中沒天賦,課都聽不懂

      初高中的區別:初中認真學,成績就不差;高中沒天賦,課都聽不懂

      好爸育兒
      2026-01-21 22:16:05
      官方出手了!吳磊床照事件再升級,何猷君被曝出軌,趙露思被牽連

      官方出手了!吳磊床照事件再升級,何猷君被曝出軌,趙露思被牽連

      查爾菲的筆記
      2026-01-20 16:05:51
      2026-01-22 02:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12162文章數 142547關注度
      往期回顧 全部

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      中國球迷被指可免費入場看U23國足決賽 中使館回應

      頭條要聞

      中國球迷被指可免費入場看U23國足決賽 中使館回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      游戲
      旅游
      藝術
      數碼
      軍事航空

      《FF7RE》N2版M站均分90分:無一差評質量夯爆了

      旅游要聞

      不必跟風“殺豬宴”,鄉村旅游沒有“標準答案”|新京報專欄

      藝術要聞

      你絕對想不到,他的油畫美得如此驚人!

      數碼要聞

      微星首款610Hz顯示器“MPG 242R X60N”降至3999元

      軍事要聞

      特朗普:對美國的真正威脅是聯合國和北約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品丝袜一区二区三区| 日韩人妻无码一区二区三区综合部| 亚洲免费v片| 午夜无码人妻A∨大片| 国产区成人精品视频| 丰满老熟女毛片| 专干老熟女视频在线观看| 欧美喷潮最猛视频| 999久久欧美人妻一区二区| 台湾省| 艳妇乳肉豪妇荡乳xxx| 国产AV一区二区三区| 欧美激情一区二区三区成人| 午夜福利理论片高清在线| 亚洲成aⅴ人在线观看| 精品人妻丰满久久久a| 久久精品国产亚洲7777| 国产成人精品日本亚洲直接| 精品国产午夜福利在线观看 | 亚洲熟妇无码成人A片| 东京热AV无码| 一级国产在线观看高清| 天天躁狠狠躁狠狠躁夜夜躁| 日本中文字幕久久网站 | 隆尧县| 一区二区三区网址| 亚洲av无码牛牛影视在线二区 | 芦山县| av男人的天堂在线观看国产| 亚洲日韩AV无码专区影院| 伊人久久大香线焦av综合影院| 亚洲性网| 一本色道av| 日韩码无第15页| 无码人妻精品一区二区中文 | 亚洲中文字幕A| 日本一卡2卡3卡4卡无卡免费| 疯狂做受XXXX高潮国产| 国产女人在线视频| 亚洲中文字幕久久精品品| 在线观看视频一区二区三区|