<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      預(yù)測下一個像素還需要幾年?谷歌:五年夠了

      0
      分享至



      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      既然語言可以當(dāng)序列來學(xué),那圖像能不能也當(dāng)序列來學(xué)?

      通過將圖像表示為像素序列,先前的研究表明通過下一像素預(yù)測,可以以一種簡單、端到端的方式同時學(xué)習(xí)視覺識別與生成。

      從概念上講,下一像素預(yù)測非常容易擴(kuò)展,因?yàn)樗菬o監(jiān)督學(xué)習(xí):無需任何人工標(biāo)注。同時,將圖像表示為像素序列,也對圖像結(jié)構(gòu)施加了最少的歸納偏置。

      然而,盡管像素級端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

      其主要原因在于出現(xiàn)了計(jì)算效率更高的方法,例如:使用視覺 tokenizer 進(jìn)行 patch 級別學(xué)習(xí)。

      盡管研究重心已經(jīng)發(fā)生轉(zhuǎn)移,但一個簡單卻極其關(guān)鍵的問題仍未被回答:我們距離真正大規(guī)模擴(kuò)展下一像素預(yù)測,還有多遠(yuǎn)?

      不可否認(rèn),相比自然語言中的下一詞預(yù)測,下一像素預(yù)測要困難得多,主要有以下幾點(diǎn)原因:

      • 首先,像素的語義信息極低。一個句子里的詞通常包含豐富含義,而一個像素只是一點(diǎn)顏色信息,兩者差距巨大。
      • 其次,像素之間的空間關(guān)系非常復(fù)雜,不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結(jié)構(gòu)的影響。
      • 第三,隨著圖像分辨率升高,下一像素預(yù)測的計(jì)算量會急劇增加。例如,要生成一張 128 × 128 的圖片,一個自回歸模型必須逐個預(yù)測 16,384 個像素,一步都不能少。

      在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預(yù)測在圖像識別與圖像生成兩類任務(wù)中的擴(kuò)展特性(scaling properties)。

      本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現(xiàn)清晰的結(jié)構(gòu)與可辨識的物體交互,因此可被視為對原生高分辨率圖像的一種有意義的近似。

      實(shí)驗(yàn)基于下一像素預(yù)測損失進(jìn)行了初始 scaling 實(shí)驗(yàn)。如圖 1 (a) 所示,結(jié)果表明:相較于文本 token,原始像素的學(xué)習(xí)需要顯著更高(10–20 倍)的最優(yōu) token-parameter 比例。更具體地,要實(shí)現(xiàn)計(jì)算最優(yōu)平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個數(shù)量級(約 400 vs. 20)。

      這一初步發(fā)現(xiàn)促使研究者進(jìn)一步深入三個核心問題。第一,我們?nèi)绾慰煽康卦u估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實(shí)驗(yàn))?第二,基于下一像素預(yù)測損失得出的 scaling 規(guī)律,是否與更有意義的下游任務(wù)(如分類與圖像補(bǔ)全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢會如何變化?

      為回答這些問題,本文圍繞三類指標(biāo)進(jìn)行了系列可控實(shí)驗(yàn)。

      在固定的 32×32 分辨率下,實(shí)驗(yàn)結(jié)果(見圖 1 (b))顯示:最優(yōu)的 scaling 策略高度依賴目標(biāo)任務(wù),其中圖像生成質(zhì)量需要比分類任務(wù)或下一像素預(yù)測任務(wù)更大的 token-parameter 比例。此外,這些 scaling 動態(tài)并非靜態(tài)不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規(guī)模的增長必須顯著快于數(shù)據(jù)規(guī)模的增長。

      最后,鑒于訓(xùn)練算力正以每年四到五倍的速度增長,本文預(yù)測逐像素建模方式在未來五年內(nèi)將變得可行。



      • 論文標(biāo)題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
      • 論文地址:https://arxiv.org/pdf/2511.08704

      方法介紹

      本文從 32×32 分辨率的圖像出發(fā),在多種 IsoFlops(等算力)配置下訓(xùn)練了一系列 Transformer 模型,最大計(jì)算量達(dá)到 7e19 FLOPs,并從三個不同指標(biāo)對其性能進(jìn)行評估:下一像素預(yù)測目標(biāo)、ImageNet 分類準(zhǔn)確率以及以 Fréchet Distance 衡量的生成質(zhì)量。結(jié)果發(fā)現(xiàn):

      • 首先,最佳擴(kuò)展策略強(qiáng)烈依賴任務(wù)類型:即使在固定的 32×32 分辨率下,分類任務(wù)與生成任務(wù)的最優(yōu) scaling 需求也完全不同,其中生成任務(wù)要達(dá)到最優(yōu)效果所需的數(shù)據(jù)規(guī)模增長速度是分類任務(wù)的三到五倍。
      • 其次,隨著圖像分辨率的提升,最優(yōu) scaling 策略顯示模型規(guī)模必須比數(shù)據(jù)規(guī)模增長得更快。更令人意外的是,根據(jù)趨勢外推,像素級模型的主要瓶頸并不是訓(xùn)練數(shù)據(jù),而是計(jì)算量。

      本文采用 Transformer 架構(gòu)進(jìn)行研究,共四種規(guī)模,參數(shù)從 2800 萬到 4.49 億不等。Transformer 架構(gòu)的詳細(xì)信息列在表 1 中。



      本文在 JFT-300M 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包含 3 億張多樣化圖像,規(guī)模是 ImageNet ILSVRC 2012 訓(xùn)練集的 10 倍以上。在分辨率為 32×32 的條件下,對數(shù)據(jù)集完整遍歷一遍相當(dāng)于處理超過 3000 億個像素。訓(xùn)練過程采用標(biāo)準(zhǔn)的 Inception 風(fēng)格隨機(jī)裁剪,并以 50% 概率進(jìn)行水平翻轉(zhuǎn)。

      在評估上,本文進(jìn)行了兩種評估方式,即圖像分類和圖像補(bǔ)全。

      實(shí)驗(yàn)及結(jié)果

      像素是否遵循與文本相同的規(guī)律?

      答案是肯定的:對原始像素預(yù)測的擴(kuò)展趨勢與文本類似、可預(yù)測,但效率要低得多。由于單個像素所攜帶的語義信息遠(yuǎn)少于語言 token,本文估計(jì)模型在學(xué)習(xí)原始像素時,需要比語言模型多 10–20 倍的 token-per-parameter 才能達(dá)到有效學(xué)習(xí)。



      本文進(jìn)一步計(jì)算了在不同訓(xùn)練 FLOPs 下的最優(yōu) token-per-parameter 比例,并與典型語言模型進(jìn)行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓(xùn)練預(yù)算下,學(xué)習(xí)原始像素仍然需要比語言 token 多 10–20 倍的數(shù)據(jù)量。

      這表明,即便在低分辨率 32×32 圖像中,單個像素的語義信息密度仍遠(yuǎn)低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個詞是高度壓縮的符號,攜帶著大量抽象信息:它是一種動物,有毛,會喵叫,有胡須。而單個像素本身幾乎不包含語義,因?yàn)樗念伾悼赡芡瑫r對應(yīng)貓、汽車或天空的一部分。



      總的來說,實(shí)驗(yàn)結(jié)果顯示,下一像素預(yù)測的最優(yōu)擴(kuò)展趨勢的確可以通過語言模型中已成熟的 scaling 框架進(jìn)行預(yù)測。

      最優(yōu) scaling 是否能直接遷移到下游任務(wù)?

      答案是不行,至少不是以一種簡單方式。在固定的 32×32 分辨率下,由下一像素預(yù)測損失得到的最優(yōu)擴(kuò)展策略對圖像生成來說并非最優(yōu)。具體而言,要獲得良好的生成質(zhì)量,需要一種更加數(shù)據(jù)驅(qū)動的 scaling 方式,即數(shù)據(jù)規(guī)模的增長速度必須明顯快于模型規(guī)模的增長速度。

      不同任務(wù)的最優(yōu) scaling 存在顯著差異。如圖 1 (b) 所示,基于獨(dú)立 IsoFlops 配置得到的最優(yōu) token-to-parameter 比例在下一像素預(yù)測損失、ImageNet 分類 top-1 準(zhǔn)確率以及基于圖像補(bǔ)全的 Fréchet Distance 之間存在明顯差別。

      隨著圖像分辨率提升,最優(yōu) scaling 會改變嗎?

      答案是會的。隨著圖像分辨率的提高,最優(yōu)擴(kuò)展策略從在 32×32 分辨率下對模型規(guī)模與數(shù)據(jù)規(guī)模的平衡,轉(zhuǎn)變?yōu)樵诟叻直媛氏旅黠@偏向更大的模型,而非更多的數(shù)據(jù)。

      圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓(xùn)練模型能夠提升下游任務(wù)表現(xiàn)。

      對于圖像分類,從 16×16 切換到 32×32 時能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進(jìn)。這表明:對于 ImageNet 分類任務(wù),在 32×32 之后,進(jìn)一步提升分辨率的收益趨于減弱。

      相比之下,對于圖像生成,32×32 附近的 scaling 趨勢并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進(jìn)。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結(jié)構(gòu)變得更復(fù)雜、更真實(shí)。抽象語義在低分辨率即可有效捕獲,而細(xì)粒度紋理則需要更高分辨率。



      我們距離原始下一像素預(yù)測還有多遠(yuǎn)?

      目前由于巨大的計(jì)算成本而難以實(shí)際執(zhí)行,但逐像素建模在未來五年內(nèi)仍是一條可行路徑,并能達(dá)到具有競爭力的性能。其主要瓶頸是計(jì)算量,而不是訓(xùn)練數(shù)據(jù)的可獲得性。本文預(yù)計(jì)在未來五年內(nèi),基于原始像素的學(xué)習(xí)將成為一條可行的發(fā)展方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

      杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬不要亂拜

      收藏大視界
      2026-02-28 23:03:27
      “一人公司”火了!全國人大代表、科大訊飛董事長劉慶峰:要完善適配稅費(fèi)規(guī)則

      “一人公司”火了!全國人大代表、科大訊飛董事長劉慶峰:要完善適配稅費(fèi)規(guī)則

      時代周報(bào)
      2026-03-07 18:44:10
      為了把張格爾押到京師凌遲,道光花了多少代價(jià)?四個字:不計(jì)成本

      為了把張格爾押到京師凌遲,道光花了多少代價(jià)?四個字:不計(jì)成本

      南書房
      2026-03-08 08:00:12
      1949年,警察局長暗殺二野兵團(tuán)司令,動手時發(fā)現(xiàn)對方竟是自己弟弟

      1949年,警察局長暗殺二野兵團(tuán)司令,動手時發(fā)現(xiàn)對方竟是自己弟弟

      大運(yùn)河時空
      2026-03-07 09:20:03
      1年賺3200萬!前中超外援炮轟:最后悔去中國踢球 為金錢出賣靈魂

      1年賺3200萬!前中超外援炮轟:最后悔去中國踢球 為金錢出賣靈魂

      風(fēng)過鄉(xiāng)
      2026-03-08 11:10:59
      快船123-120灰熊3喜1憂!杰克遜+米勒證明價(jià)值,馬瑟林曝弊端!

      快船123-120灰熊3喜1憂!杰克遜+米勒證明價(jià)值,馬瑟林曝弊端!

      籃球資訊達(dá)人
      2026-03-08 12:48:05
      2026兩會開始當(dāng)天,張凱麗建議整治圈內(nèi)亂象,周迅、楊冪榜上有名

      2026兩會開始當(dāng)天,張凱麗建議整治圈內(nèi)亂象,周迅、楊冪榜上有名

      老鵜愛說事
      2026-03-06 21:37:50
      山姆1.38公斤冰塊售價(jià)37.9元!門店工作人員回應(yīng)

      山姆1.38公斤冰塊售價(jià)37.9元!門店工作人員回應(yīng)

      上海約飯局
      2026-03-07 21:33:52
      美軍B2轟炸機(jī)來了,伊朗外長致電王毅,提一個請求,中方斬釘截鐵

      美軍B2轟炸機(jī)來了,伊朗外長致電王毅,提一個請求,中方斬釘截鐵

      面包夾知識
      2026-03-06 14:15:50
      1960年,烈士趙一曼兒子寫信諷刺毛主席,主席看后只回復(fù)了6個字

      1960年,烈士趙一曼兒子寫信諷刺毛主席,主席看后只回復(fù)了6個字

      小莜讀史
      2026-03-04 15:56:32
      近萬噸新疆三文魚,都去哪兒了?

      近萬噸新疆三文魚,都去哪兒了?

      虎嗅APP
      2026-03-04 01:57:12
      萬萬沒想到,馬筱梅一句都是我的錯,竟然把自己陷入了水深火熱中

      萬萬沒想到,馬筱梅一句都是我的錯,竟然把自己陷入了水深火熱中

      吳霶愛體育
      2026-03-08 08:03:50
      爆大冷!西部第三27分潰敗:愛德華茲孤立無援,火箭坐收漁利

      爆大冷!西部第三27分潰敗:愛德華茲孤立無援,火箭坐收漁利

      體壇小李
      2026-03-08 07:10:31
      浙江一中學(xué)為學(xué)生定制專屬毛毯獎狀,有的學(xué)生走出校門時直接披在身上!校方:寓意“一輩子”,以后學(xué)生喜歡什么就頒發(fā)什么

      浙江一中學(xué)為學(xué)生定制專屬毛毯獎狀,有的學(xué)生走出校門時直接披在身上!校方:寓意“一輩子”,以后學(xué)生喜歡什么就頒發(fā)什么

      大風(fēng)新聞
      2026-03-05 20:34:02
      美伊以大混戰(zhàn)第六天,第一個輸家已出現(xiàn),竟然不是美國也不是伊朗

      美伊以大混戰(zhàn)第六天,第一個輸家已出現(xiàn),竟然不是美國也不是伊朗

      近史博覽
      2026-03-08 12:24:41
      談伊朗局勢、中美關(guān)系、全球治理……王毅答中外記者問,金句來了!

      談伊朗局勢、中美關(guān)系、全球治理……王毅答中外記者問,金句來了!

      縱相新聞
      2026-03-08 12:52:03
      不到24小時,伊朗新防長被斬首!哈梅死得不冤,最大敵人已出現(xiàn)

      不到24小時,伊朗新防長被斬首!哈梅死得不冤,最大敵人已出現(xiàn)

      甜檸聊史
      2026-03-07 04:43:09
      出軌、凈身出戶?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

      出軌、凈身出戶?這次,74歲的梁錦松,終究在伏明霞身上栽了跟頭

      秋姐居
      2026-02-10 09:19:42
      1968年,那個逃到蘇聯(lián)成為克格勃的女知青傅索安,結(jié)局如何?

      1968年,那個逃到蘇聯(lián)成為克格勃的女知青傅索安,結(jié)局如何?

      明月清風(fēng)閣
      2026-02-03 15:20:06
      72歲大爺斑塊消失,他把血管變干凈的三個方法,連醫(yī)生也贊嘆

      72歲大爺斑塊消失,他把血管變干凈的三個方法,連醫(yī)生也贊嘆

      荊醫(yī)生科普
      2026-03-03 16:40:19
      2026-03-08 13:39:01
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12431文章數(shù) 142578關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗軍方:已摧毀"沙漠之眼"雷達(dá)等200個美以敏感目標(biāo)

      頭條要聞

      伊朗軍方:已摧毀"沙漠之眼"雷達(dá)等200個美以敏感目標(biāo)

      體育要聞

      大傷后被交易,他說:22歲的我已經(jīng)死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財(cái)經(jīng)要聞

      油價(jià)要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

      態(tài)度原創(chuàng)

      游戲
      藝術(shù)
      教育
      旅游
      公開課

      《GTA6》首發(fā)不適配?傳下一代Xbox沒有原生系統(tǒng)

      藝術(shù)要聞

      “北京意象·活力通州”繪畫作品展 | 油畫作品選

      教育要聞

      父母留給子女最好的財(cái)富是什么?

      旅游要聞

      玉蘭開了!快來這里邂逅一場春日的潔白盛宴

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版