<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      預(yù)測(cè)下一個(gè)像素還需要幾年?谷歌:五年夠了

      0
      分享至



      機(jī)器之心報(bào)道

      機(jī)器之心編輯部

      既然語(yǔ)言可以當(dāng)序列來(lái)學(xué),那圖像能不能也當(dāng)序列來(lái)學(xué)?

      通過(guò)將圖像表示為像素序列,先前的研究表明通過(guò)下一像素預(yù)測(cè),可以以一種簡(jiǎn)單、端到端的方式同時(shí)學(xué)習(xí)視覺(jué)識(shí)別與生成。

      從概念上講,下一像素預(yù)測(cè)非常容易擴(kuò)展,因?yàn)樗菬o(wú)監(jiān)督學(xué)習(xí):無(wú)需任何人工標(biāo)注。同時(shí),將圖像表示為像素序列,也對(duì)圖像結(jié)構(gòu)施加了最少的歸納偏置。

      然而,盡管像素級(jí)端到端建模在早期被證明是可行的,但這一范式近年來(lái)卻不再流行。

      其主要原因在于出現(xiàn)了計(jì)算效率更高的方法,例如:使用視覺(jué) tokenizer 進(jìn)行 patch 級(jí)別學(xué)習(xí)。

      盡管研究重心已經(jīng)發(fā)生轉(zhuǎn)移,但一個(gè)簡(jiǎn)單卻極其關(guān)鍵的問(wèn)題仍未被回答:我們距離真正大規(guī)模擴(kuò)展下一像素預(yù)測(cè),還有多遠(yuǎn)?

      不可否認(rèn),相比自然語(yǔ)言中的下一詞預(yù)測(cè),下一像素預(yù)測(cè)要困難得多,主要有以下幾點(diǎn)原因:

      • 首先,像素的語(yǔ)義信息極低。一個(gè)句子里的詞通常包含豐富含義,而一個(gè)像素只是一點(diǎn)顏色信息,兩者差距巨大。
      • 其次,像素之間的空間關(guān)系非常復(fù)雜,不容易用序列方式來(lái)表示。一個(gè)像素的顏色不僅受到周?chē)徲蛳袼氐挠绊懀€受到圖像中那些與它不相鄰的物體和結(jié)構(gòu)的影響。
      • 第三,隨著圖像分辨率升高,下一像素預(yù)測(cè)的計(jì)算量會(huì)急劇增加。例如,要生成一張 128 × 128 的圖片,一個(gè)自回歸模型必須逐個(gè)預(yù)測(cè) 16,384 個(gè)像素,一步都不能少。

      在這篇論文中,來(lái)自 Google DeepMind 的研究者分析了下一像素預(yù)測(cè)在圖像識(shí)別與圖像生成兩類(lèi)任務(wù)中的擴(kuò)展特性(scaling properties)。

      本文首先在固定的 32×32 像素分辨率下開(kāi)展研究,在這一分辨率下,圖像已開(kāi)始呈現(xiàn)清晰的結(jié)構(gòu)與可辨識(shí)的物體交互,因此可被視為對(duì)原生高分辨率圖像的一種有意義的近似。

      實(shí)驗(yàn)基于下一像素預(yù)測(cè)損失進(jìn)行了初始 scaling 實(shí)驗(yàn)。如圖 1 (a) 所示,結(jié)果表明:相較于文本 token,原始像素的學(xué)習(xí)需要顯著更高(10–20 倍)的最優(yōu) token-parameter 比例。更具體地,要實(shí)現(xiàn)計(jì)算最優(yōu)平衡,像素模型所需的 token-per-parameter 至少比語(yǔ)言模型高一個(gè)數(shù)量級(jí)(約 400 vs. 20)。

      這一初步發(fā)現(xiàn)促使研究者進(jìn)一步深入三個(gè)核心問(wèn)題。第一,我們?nèi)绾慰煽康卦u(píng)估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開(kāi)展大量實(shí)驗(yàn))?第二,基于下一像素預(yù)測(cè)損失得出的 scaling 規(guī)律,是否與更有意義的下游任務(wù)(如分類(lèi)與圖像補(bǔ)全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢(shì)會(huì)如何變化?

      為回答這些問(wèn)題,本文圍繞三類(lèi)指標(biāo)進(jìn)行了系列可控實(shí)驗(yàn)。

      在固定的 32×32 分辨率下,實(shí)驗(yàn)結(jié)果(見(jiàn)圖 1 (b))顯示:最優(yōu)的 scaling 策略高度依賴(lài)目標(biāo)任務(wù),其中圖像生成質(zhì)量需要比分類(lèi)任務(wù)或下一像素預(yù)測(cè)任務(wù)更大的 token-parameter 比例。此外,這些 scaling 動(dòng)態(tài)并非靜態(tài)不變;對(duì) 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規(guī)模的增長(zhǎng)必須顯著快于數(shù)據(jù)規(guī)模的增長(zhǎng)。

      最后,鑒于訓(xùn)練算力正以每年四到五倍的速度增長(zhǎng),本文預(yù)測(cè)逐像素建模方式在未來(lái)五年內(nèi)將變得可行。



      • 論文標(biāo)題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
      • 論文地址:https://arxiv.org/pdf/2511.08704

      方法介紹

      本文從 32×32 分辨率的圖像出發(fā),在多種 IsoFlops(等算力)配置下訓(xùn)練了一系列 Transformer 模型,最大計(jì)算量達(dá)到 7e19 FLOPs,并從三個(gè)不同指標(biāo)對(duì)其性能進(jìn)行評(píng)估:下一像素預(yù)測(cè)目標(biāo)、ImageNet 分類(lèi)準(zhǔn)確率以及以 Fréchet Distance 衡量的生成質(zhì)量。結(jié)果發(fā)現(xiàn):

      • 首先,最佳擴(kuò)展策略強(qiáng)烈依賴(lài)任務(wù)類(lèi)型:即使在固定的 32×32 分辨率下,分類(lèi)任務(wù)與生成任務(wù)的最優(yōu) scaling 需求也完全不同,其中生成任務(wù)要達(dá)到最優(yōu)效果所需的數(shù)據(jù)規(guī)模增長(zhǎng)速度是分類(lèi)任務(wù)的三到五倍。
      • 其次,隨著圖像分辨率的提升,最優(yōu) scaling 策略顯示模型規(guī)模必須比數(shù)據(jù)規(guī)模增長(zhǎng)得更快。更令人意外的是,根據(jù)趨勢(shì)外推,像素級(jí)模型的主要瓶頸并不是訓(xùn)練數(shù)據(jù),而是計(jì)算量。

      本文采用 Transformer 架構(gòu)進(jìn)行研究,共四種規(guī)模,參數(shù)從 2800 萬(wàn)到 4.49 億不等。Transformer 架構(gòu)的詳細(xì)信息列在表 1 中。



      本文在 JFT-300M 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包含 3 億張多樣化圖像,規(guī)模是 ImageNet ILSVRC 2012 訓(xùn)練集的 10 倍以上。在分辨率為 32×32 的條件下,對(duì)數(shù)據(jù)集完整遍歷一遍相當(dāng)于處理超過(guò) 3000 億個(gè)像素。訓(xùn)練過(guò)程采用標(biāo)準(zhǔn)的 Inception 風(fēng)格隨機(jī)裁剪,并以 50% 概率進(jìn)行水平翻轉(zhuǎn)。

      在評(píng)估上,本文進(jìn)行了兩種評(píng)估方式,即圖像分類(lèi)和圖像補(bǔ)全。

      實(shí)驗(yàn)及結(jié)果

      像素是否遵循與文本相同的規(guī)律?

      答案是肯定的:對(duì)原始像素預(yù)測(cè)的擴(kuò)展趨勢(shì)與文本類(lèi)似、可預(yù)測(cè),但效率要低得多。由于單個(gè)像素所攜帶的語(yǔ)義信息遠(yuǎn)少于語(yǔ)言 token,本文估計(jì)模型在學(xué)習(xí)原始像素時(shí),需要比語(yǔ)言模型多 10–20 倍的 token-per-parameter 才能達(dá)到有效學(xué)習(xí)。



      本文進(jìn)一步計(jì)算了在不同訓(xùn)練 FLOPs 下的最優(yōu) token-per-parameter 比例,并與典型語(yǔ)言模型進(jìn)行比較。如圖 1 (a) 所示,即便在超過(guò) 10^21 FLOPs 的訓(xùn)練預(yù)算下,學(xué)習(xí)原始像素仍然需要比語(yǔ)言 token 多 10–20 倍的數(shù)據(jù)量。

      這表明,即便在低分辨率 32×32 圖像中,單個(gè)像素的語(yǔ)義信息密度仍遠(yuǎn)低于語(yǔ)言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個(gè)詞是高度壓縮的符號(hào),攜帶著大量抽象信息:它是一種動(dòng)物,有毛,會(huì)喵叫,有胡須。而單個(gè)像素本身幾乎不包含語(yǔ)義,因?yàn)樗念伾悼赡芡瑫r(shí)對(duì)應(yīng)貓、汽車(chē)或天空的一部分。



      總的來(lái)說(shuō),實(shí)驗(yàn)結(jié)果顯示,下一像素預(yù)測(cè)的最優(yōu)擴(kuò)展趨勢(shì)的確可以通過(guò)語(yǔ)言模型中已成熟的 scaling 框架進(jìn)行預(yù)測(cè)。

      最優(yōu) scaling 是否能直接遷移到下游任務(wù)?

      答案是不行,至少不是以一種簡(jiǎn)單方式。在固定的 32×32 分辨率下,由下一像素預(yù)測(cè)損失得到的最優(yōu)擴(kuò)展策略對(duì)圖像生成來(lái)說(shuō)并非最優(yōu)。具體而言,要獲得良好的生成質(zhì)量,需要一種更加數(shù)據(jù)驅(qū)動(dòng)的 scaling 方式,即數(shù)據(jù)規(guī)模的增長(zhǎng)速度必須明顯快于模型規(guī)模的增長(zhǎng)速度。

      不同任務(wù)的最優(yōu) scaling 存在顯著差異。如圖 1 (b) 所示,基于獨(dú)立 IsoFlops 配置得到的最優(yōu) token-to-parameter 比例在下一像素預(yù)測(cè)損失、ImageNet 分類(lèi) top-1 準(zhǔn)確率以及基于圖像補(bǔ)全的 Fréchet Distance 之間存在明顯差別。

      隨著圖像分辨率提升,最優(yōu) scaling 會(huì)改變嗎?

      答案是會(huì)的。隨著圖像分辨率的提高,最優(yōu)擴(kuò)展策略從在 32×32 分辨率下對(duì)模型規(guī)模與數(shù)據(jù)規(guī)模的平衡,轉(zhuǎn)變?yōu)樵诟叻直媛氏旅黠@偏向更大的模型,而非更多的數(shù)據(jù)。

      圖像分類(lèi) vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓(xùn)練模型能夠提升下游任務(wù)表現(xiàn)。

      對(duì)于圖像分類(lèi),從 16×16 切換到 32×32 時(shí)能夠帶來(lái)明顯提升,但在 FLOPs 超過(guò) 1e20 的情況下,從 32×32 增加到 64×64 僅帶來(lái)輕微改進(jìn)。這表明:對(duì)于 ImageNet 分類(lèi)任務(wù),在 32×32 之后,進(jìn)一步提升分辨率的收益趨于減弱。

      相比之下,對(duì)于圖像生成,32×32 附近的 scaling 趨勢(shì)并未飽和,將分辨率從 32×32 提升至 64×64 能帶來(lái)顯著改進(jìn)。直觀來(lái)看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺(jué)結(jié)構(gòu)變得更復(fù)雜、更真實(shí)。抽象語(yǔ)義在低分辨率即可有效捕獲,而細(xì)粒度紋理則需要更高分辨率。



      我們距離原始下一像素預(yù)測(cè)還有多遠(yuǎn)?

      目前由于巨大的計(jì)算成本而難以實(shí)際執(zhí)行,但逐像素建模在未來(lái)五年內(nèi)仍是一條可行路徑,并能達(dá)到具有競(jìng)爭(zhēng)力的性能。其主要瓶頸是計(jì)算量,而不是訓(xùn)練數(shù)據(jù)的可獲得性。本文預(yù)計(jì)在未來(lái)五年內(nèi),基于原始像素的學(xué)習(xí)將成為一條可行的發(fā)展方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      冷空氣下周到貨!@廣東人,濕冷可能要來(lái)了

      冷空氣下周到貨!@廣東人,濕冷可能要來(lái)了

      廣東衛(wèi)視
      2025-12-07 16:19:10
      周末突發(fā)!證券、創(chuàng)新藥迎來(lái)利好!

      周末突發(fā)!證券、創(chuàng)新藥迎來(lái)利好!

      大張羽
      2025-12-07 10:54:04
      勸你一句:少吃外面的飯,真的不太干凈!

      勸你一句:少吃外面的飯,真的不太干凈!

      新住家居
      2025-12-01 22:16:53
      多家網(wǎng)約車(chē)平臺(tái)宣布調(diào)價(jià):新運(yùn)價(jià)生效,里程費(fèi)跌至8毛一公里

      多家網(wǎng)約車(chē)平臺(tái)宣布調(diào)價(jià):新運(yùn)價(jià)生效,里程費(fèi)跌至8毛一公里

      網(wǎng)約車(chē)觀察室
      2025-12-06 10:27:16
      奚美娟孩子上了熱搜

      奚美娟孩子上了熱搜

      話娛論影
      2025-12-03 10:54:58
      大跳水!暴跌40%,又土又貴還開(kāi)遍機(jī)場(chǎng),中產(chǎn)的標(biāo)配,賣(mài)不動(dòng)了

      大跳水!暴跌40%,又土又貴還開(kāi)遍機(jī)場(chǎng),中產(chǎn)的標(biāo)配,賣(mài)不動(dòng)了

      毒sir財(cái)經(jīng)
      2025-11-16 23:08:08
      你敢信這是真實(shí)的考古現(xiàn)場(chǎng)?顛覆了我對(duì)出土文物的全部認(rèn)知

      你敢信這是真實(shí)的考古現(xiàn)場(chǎng)?顛覆了我對(duì)出土文物的全部認(rèn)知

      收藏大視界
      2025-12-07 21:24:28
      談不攏就打!中國(guó)正式下達(dá)第77號(hào)令,對(duì)日漲價(jià)開(kāi)始,高市故作鎮(zhèn)定

      談不攏就打!中國(guó)正式下達(dá)第77號(hào)令,對(duì)日漲價(jià)開(kāi)始,高市故作鎮(zhèn)定

      古事尋蹤記
      2025-12-07 07:05:57
      田亮女兒森碟(田雨橙)17歲近照曝光,身高矚目氣質(zhì)佳

      田亮女兒森碟(田雨橙)17歲近照曝光,身高矚目氣質(zhì)佳

      今古深日?qǐng)?bào)
      2025-12-05 09:52:46
      廣西12家公司近2億元的不良資產(chǎn)公開(kāi)轉(zhuǎn)讓?zhuān)蝗?902萬(wàn)元接手

      廣西12家公司近2億元的不良資產(chǎn)公開(kāi)轉(zhuǎn)讓?zhuān)蝗?902萬(wàn)元接手

      天天話事
      2025-12-07 19:14:16
      王晶終于坦白!陳百?gòu)?qiáng)英年早逝主因不是何超瓊,原來(lái)我們都被騙了

      王晶終于坦白!陳百?gòu)?qiáng)英年早逝主因不是何超瓊,原來(lái)我們都被騙了

      王楔曉
      2025-12-07 19:36:26
      龍洋因沒(méi)車(chē)沒(méi)房被貼“央視窮鬼”標(biāo)簽,主持人王洋:比大家想象中窮不少,當(dāng)年自己每月到手只有一萬(wàn)多

      龍洋因沒(méi)車(chē)沒(méi)房被貼“央視窮鬼”標(biāo)簽,主持人王洋:比大家想象中窮不少,當(dāng)年自己每月到手只有一萬(wàn)多

      觀威海
      2025-12-07 19:22:08
      黑長(zhǎng)直公公寵私生子?于正不準(zhǔn)周柯宇請(qǐng)假?金晨化妝翻車(chē)?吳尊想開(kāi)組合演出?姨太問(wèn)答

      黑長(zhǎng)直公公寵私生子?于正不準(zhǔn)周柯宇請(qǐng)假?金晨化妝翻車(chē)?吳尊想開(kāi)組合演出?姨太問(wèn)答

      毒舌扒姨太
      2025-12-07 22:20:57
      兩個(gè)保鏢都這么帥,這女人一看家世就不錯(cuò),就很好。

      兩個(gè)保鏢都這么帥,這女人一看家世就不錯(cuò),就很好。

      喜歡歷史的阿繁
      2025-12-05 14:06:46
      現(xiàn)實(shí)很殘酷 再過(guò)幾天大量人員將失業(yè)!

      現(xiàn)實(shí)很殘酷 再過(guò)幾天大量人員將失業(yè)!

      歲月有情1314
      2025-12-05 03:38:02
      最差的男籃國(guó)手?首發(fā)打了21分鐘,得0分0板 球迷:連替補(bǔ)都不如

      最差的男籃國(guó)手?首發(fā)打了21分鐘,得0分0板 球迷:連替補(bǔ)都不如

      體育哲人
      2025-12-07 09:57:11
      李亞鵬早年救助的小女孩,給他轉(zhuǎn)了10000元:這幾年,你很不容易

      李亞鵬早年救助的小女孩,給他轉(zhuǎn)了10000元:這幾年,你很不容易

      一娛三分地
      2025-12-06 19:25:07
      12月7日俄烏最新:雙面高級(jí)特工落網(wǎng)

      12月7日俄烏最新:雙面高級(jí)特工落網(wǎng)

      西樓飲月
      2025-12-07 18:05:06
      黃循財(cái)嗅到危機(jī),他站出來(lái)打破平衡,這種人就不能慣著,他太壞了

      黃循財(cái)嗅到危機(jī),他站出來(lái)打破平衡,這種人就不能慣著,他太壞了

      阿釗是個(gè)小小評(píng)論員
      2025-12-07 00:57:27
      拒絕加盟廣東隊(duì)?CBA強(qiáng)力中鋒“不滿”杜鋒,36+15打成本土得分王

      拒絕加盟廣東隊(duì)?CBA強(qiáng)力中鋒“不滿”杜鋒,36+15打成本土得分王

      緋雨兒
      2025-12-07 12:07:52
      2025-12-07 22:59:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      11862文章數(shù) 142509關(guān)注度
      往期回顧 全部

      科技要聞

      漲幅最高20%!戴爾、聯(lián)想等PC廠計(jì)劃漲價(jià)

      頭條要聞

      人民日?qǐng)?bào)、新華社追問(wèn)"全網(wǎng)最忙五人組":需一查到底

      頭條要聞

      人民日?qǐng)?bào)、新華社追問(wèn)"全網(wǎng)最忙五人組":需一查到底

      體育要聞

      梅開(kāi)48度!2年半,這是梅西在邁阿密的一人一城

      娛樂(lè)要聞

      林俊杰AAA頒獎(jiǎng)禮,韓娛愛(ài)豆均站起鞠躬

      財(cái)經(jīng)要聞

      五糧液降價(jià)?回應(yīng)來(lái)了

      汽車(chē)要聞

      傳奇超跑電動(dòng)形態(tài)重生 雷克薩斯LFA純電概念車(chē)

      態(tài)度原創(chuàng)

      游戲
      本地
      教育
      數(shù)碼
      藝術(shù)

      《DOTA2》x《怪物獵人》聯(lián)動(dòng)成功 日活破59萬(wàn)

      本地新聞

      云游安徽|七千年敘事,第一章寫(xiě)在蚌埠

      教育要聞

      “聽(tīng)完題型總結(jié)直播,感覺(jué)終于在12月學(xué)通了!!!今天寫(xiě)完模擬考覺(jué)得能考上了!!!”

      數(shù)碼要聞

      大疆6款新品蓄勢(shì)待發(fā),神秘Mic Mini 2麥克風(fēng)亮點(diǎn)多

      藝術(shù)要聞

      谷愛(ài)凌性感泳裝照來(lái)襲,你絕對(duì)想不到的驚艷瞬間!

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲综合网国产精品一区| 国产精品人妻在线观看 | 蜜臀av人妻国产精品建身房| 精品国产午夜福利在线观看| 亚洲国产高清第一第二区 | 最新亚洲中文字幕在线| 欧美午夜福利视频| 伊人久久大香线蕉综合影院首页| 精品无码av一区二区三区不卡 | 久久福利影院| 赞皇县| 中文日产乱幕九区无线码| 日韩人妻中文无码一区二区七区| 精品熟女少妇免费久久| A片国产在线| 亚洲精品99| 亚洲人成网站18禁止| 伊人色色| 亚洲欧美?va天堂人熟伦| 靖宇县| 亚洲香蕉视频天天爽| 日韩在线视频观看免费网站| 亚洲中文在线观看| 亚洲3P| 色吊丝永久性观看网站| 婷婷综合网| 国产老熟女伦老熟妇露脸| 人妻少妇偷人精品久久久任期| 熟女少妇精品一区二区| 无码h片在线观看网站| 超碰精品在线| 六枝特区| 日日噜噜夜夜狠狠久久蜜桃| 亚洲AV影视| 中文字幕一级A片免费看| 一本色道久久综合亚洲精品按摩| 国产真实露脸乱子伦| 国产成人精品1024免费下载| 日韩AV在线免费观看| 亚洲黄色精品| 国产福利视频在线观看|