<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      NextStep-1:一次在圖像生成上自回歸范式的探索

      0
      分享至



      機器之心發(fā)布

      機器之心編輯部

      自回歸模型,是 AIGC 領(lǐng)域一塊迷人的基石。開發(fā)者們一直在探索它在視覺生成領(lǐng)域的邊界,從經(jīng)典的離散序列生成,到結(jié)合強大擴散模型的混合范式,每一步都凝聚了社區(qū)的智慧。

      這些工作,比如 MAR、Fluid、LatentLM 等,為我們帶來了巨大的啟發(fā),也讓我們看到了進一步優(yōu)化的空間:比如,如何避免離散化帶來的信息損失?如何讓模型的架構(gòu)更輕盈、更強大?

      帶著這些問題,階躍星辰團隊進行了新的嘗試,并分享了階段性成果:NextStep-1

      階躍星辰的初衷是探索一條新的自回歸圖像生成的路徑。NextStep-1 的核心思想是直接在連續(xù)的視覺空間中,以自回歸方式進行生成

      為實現(xiàn)這一點,團隊采用了一個輕量的「流匹配頭」(Flow Matching Head)。它讓模型能夠:

      • 學(xué)會在連續(xù)的視覺空間中直接生成單個圖像 Patch,從根本上繞開了作為信息瓶頸的離散化步驟。
      • 模型以自回歸的方式,逐一生成所有 patches,最終完成一幅完整的圖像。

      這一設(shè)計帶來了另一個顯著優(yōu)勢:架構(gòu)的簡潔與純粹。由于不再需要外部大型擴散模型的 「輔助」,NextStep-1 的整體架構(gòu)變得高度統(tǒng)一,實現(xiàn)了真正意義上的端到端訓(xùn)練。

      階躍星辰團隊認為,NextStep-1 的探索指向了一個有趣且充滿潛力的方向。它證明了在不犧牲連續(xù)性的前提下,構(gòu)建一個簡潔、高效的自回歸模型是完全可行的。

      這只是探索的第一步。階躍星辰選擇將 NextStep-1 開源,衷心期待它能引發(fā)更多有價值的討論,并希望能與社區(qū)的研究者一起,繼續(xù)推動生成技術(shù)的演進



      • 論文鏈接:https://arxiv.org/abs/2508.10711
      • GitHub 鏈接:https://github.com/stepfun-ai/NextStep-1
      • Hugging Face 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

      動因探究:背后的技術(shù)支撐

      整體架構(gòu)

      NextStep-1 的架構(gòu)如圖 1 所示,其核心是一個強大的 Transformer 骨干網(wǎng)絡(luò)(14B 參數(shù)),輔以一個輕量級的流匹配頭(Flow Matching Head,157M 參數(shù)),用于直接生成連續(xù)的圖像 Patch。



      圖 1 NextStep-1 的架構(gòu)圖

      這一結(jié)構(gòu)極其簡潔、純粹,它帶來了兩大解放:

      • 解放了對離散化的依賴:不再需要圖像 Tokenizer 進行離散化,直接在連續(xù)空間操作。
      • 解放了對外部擴散模型的依賴:不再需要外接大型擴散模型作為 「解碼器」,實現(xiàn)了端到端的自回歸訓(xùn)練。

      核心發(fā)現(xiàn)

      在探索 NextStep-1 的過程中,階躍星辰團隊獲得了兩個關(guān)鍵發(fā)現(xiàn),它們不僅解釋了模型為何高效,也為未來的研究提供了新的思路。

      發(fā)現(xiàn)一:真正的「藝術(shù)家」 是 Transformer

      在階躍星辰的框架中,Transformer 是 「主創(chuàng)」,流匹配頭更像是「畫筆」。團隊通過實驗發(fā)現(xiàn),流匹配頭的尺寸大小( 157M -> 528M),對最終圖像質(zhì)量影響很小。這有力地證明了,核心的生成建模與邏輯推理等 「重活」,完全由 Transformer 承擔。流匹配頭則作為一個高效輕量的采樣器,忠實地將 Transformer 的潛在預(yù)測 「翻譯」 成圖像 Patch。

      發(fā)現(xiàn)二:Tokenizer 的「煉金術(shù)」—— 穩(wěn)定與質(zhì)量的關(guān)鍵

      在連續(xù)視覺 Token 上的操作帶來了獨特的穩(wěn)定性挑戰(zhàn),團隊發(fā)現(xiàn)兩個關(guān)鍵 「煉金術(shù)」:

      • 通道歸一化 (Channel-Wise Normalization) 是穩(wěn)定性的「壓艙石」:通過引入簡單的通道歸一化,極其有效地穩(wěn)定了 Token 的統(tǒng)計特性,即使在高 CFG 指導(dǎo)強度下,也能確保生成清晰、無偽影的圖像。
      • 「更多噪聲」 竟能帶來「更好質(zhì)量」:一個反直覺的發(fā)現(xiàn)是,訓(xùn)練 Tokenizer 時加入更多噪聲正則化,反而能顯著提升最終生成圖像的質(zhì)量。階躍星辰團隊推斷,這有助于塑造一個更魯棒、分布更均勻的潛在空間,為自回歸主模型提供更理想的工作平臺。

      眼見為實:高保真的視覺生成和編輯能力

      NextStep-1 實現(xiàn)了高保真的文生圖的生成,同時具有強大的圖像編輯能力,覆蓋多種編輯操作(如物體增刪、背景修改、動作修改、風(fēng)格遷移等),并能理解用戶的日常語言指令,實現(xiàn)形式自由的圖像編輯。



      圖 2 展示 NextStep-1 全面的圖像生成和編輯能力

      硬核實力:權(quán)威 Benchmark 下的表現(xiàn)

      除了直觀的視覺效果,階躍星辰團隊也在多個行業(yè)公認的 Benchmark 上對 NextStep-1 進行了嚴格的評估。結(jié)果表明,

      • 綜合性能在自回歸模型中達到了新的 SOTA(State-of-the-Art)水平
      • 在多個 benchmark 上已能與頂尖的擴散模型(Diffusion Models)直接競爭



      表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能



      表 2 NextStep-1 在 OneIG 上的性能



      表 3 NextStep-1 在 WISE 上的性能



      表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

      局限性與未來展望

      NextStep-1 是階躍星辰團隊對構(gòu)建簡潔的高保真生成模型的一次真誠探索。它證明了,在不犧牲連續(xù)性的前提下,構(gòu)建一個純粹的端到端自回歸模型是完全可行的。階躍星辰相信,這條 「簡潔」 的道路,為多模態(tài)生成領(lǐng)域提供了有價值的新視角。

      階躍星辰團隊深知這只是探索的開始,前路依然廣闊。作為一個對新范式的初步探索,NextStep-1 在展現(xiàn)出巨大潛力的同時,也讓團隊識別出了一些亟待解決的挑戰(zhàn)。我們在此坦誠地列出這些觀察,并視其為未來工作的重要方向。

      生成過程中不穩(wěn)定

      NextStep-1 成功證明了自回歸模型可以在高維連續(xù)潛在空間中運行,并達到媲美擴散模型的生成質(zhì)量,但這條路徑也帶來了獨特的穩(wěn)定性挑戰(zhàn)。觀察到,當模型的潛在空間從低維(如 4 通道)擴展到更高維(如 16 通道)時,盡管后者能表達更豐富的細節(jié),但也偶發(fā)性地出現(xiàn)了一些生成 「翻車」的情況(如圖 3 所示)。



      圖 3 失敗的例子,展示圖像生成過程中一些暴露出的問題

      雖然其根本原因仍有待進一步探究,但團隊推測可能存在以下因素:

      • 局部噪聲 / 塊狀偽影: 可能源于生成后期出現(xiàn)的數(shù)值不穩(wěn)定性。
      • 全局噪聲: 可能反映了模型尚未完全收斂,需要更多的訓(xùn)練來優(yōu)化。
      • 網(wǎng)格狀偽影: 可能揭示了當前一維位置編碼在精確捕捉二維空間關(guān)系上的局限性。

      順序解碼帶來的推理延遲

      自回歸模型的順序解碼特性,是其推理速度的主要瓶頸。研究團隊對單個 Token 在 H100 GPU 上的延遲進行了理論分析(如表 5 所示),結(jié)果表明:

      • 主要瓶頸在于大模型(LLM)骨干網(wǎng)絡(luò)的順序解碼
      • 流匹配頭(Flow Matching Head)的多步采樣過程也構(gòu)成了不可忽視的開銷



      表 5 H100 上生成每個 token 的理論延遲速度 ( batch size 為 1 )

      這一觀察指明了兩個明確的加速方向:

      • 優(yōu)化流匹配頭:通過減小其參數(shù)量、應(yīng)用模型蒸餾以實現(xiàn)少步生成,或采用更先進的少步采樣器。
      • 加速自回歸主干:借鑒大語言模型領(lǐng)域的最新進展,如將多 Token 預(yù)測等技術(shù),適配到圖像 Token 的生成中。

      高分辨率生成的挑戰(zhàn)

      在擴展到高分辨率圖像生成方面,與技術(shù)生態(tài)已相當成熟的擴散模型相比,階躍星辰團隊的框架面臨兩大挑戰(zhàn):

      • 收斂效率:自回歸模型的嚴格順序生成特性,在更高分辨率下需要更多的訓(xùn)練步數(shù)才能收斂。相比之下,擴散模型在每次迭代中并行地優(yōu)化整張圖像,能更直接地利用二維空間歸納偏置。
      • 技術(shù)遷移難度:為高分辨率擴散模型開發(fā)的先進技術(shù)(如 timestep shift)難以直接遷移。其根本原因在于,流匹配頭主要扮演一個輕量級采樣器的角色,而核心的生成建模由 Transformer 骨干網(wǎng)絡(luò)完成,因此單純修改采樣過程對最終輸出的影響有限。

      因此,基于 patch-wise 的圖像自回歸模型的高分辨率生成是一個重要探索方向。

      監(jiān)督微調(diào)(SFT)的獨特挑戰(zhàn)

      團隊觀察到,當使用小規(guī)模、高質(zhì)量的數(shù)據(jù)集進行微調(diào)時,訓(xùn)練動態(tài)會變得極不穩(wěn)定

      擴散模型通常僅需數(shù)千個樣本,就能穩(wěn)定地適應(yīng)目標數(shù)據(jù)分布,同時保持良好的泛化生成能力。相比之下,階躍星辰的 SFT 過程:

      • 依賴大規(guī)模數(shù)據(jù):只有在百萬樣本規(guī)模的數(shù)據(jù)集上訓(xùn)練時,才能觀察到顯著且穩(wěn)定的提升。
      • 在小數(shù)據(jù)集上表現(xiàn)脆弱:當使用小規(guī)模數(shù)據(jù)集時,模型會陷入一種 「岌岌可危」 的平衡狀態(tài)。它要么收效甚微,幾乎沒有變化;要么突然 「崩潰」,完全過擬合到目標數(shù)據(jù)分布上,喪失了原有的泛化能力。

      因此,如何在一個小規(guī)模數(shù)據(jù)集上,找到一個既能對齊目標風(fēng)格、又能保留通用生成能力的 「甜蜜點」(sweet spot)檢查點,對階躍星辰團隊而言仍然是一個重大的挑戰(zhàn)。

      階躍星辰團隊相信,坦誠地面對這些挑戰(zhàn),是推動領(lǐng)域前進的第一步。

      NextStep-1 的開源是團隊為此付出的努力,也希望能成為社區(qū)進一步研究的基石。階躍星辰團隊期待與全球的研究者和開發(fā)者交流與合作,共同推動自回歸生成技術(shù)向前發(fā)展。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      熱身賽:國足2-2戰(zhàn)平莫斯科斯巴達,朱鵬宇、林良銘分別破門

      熱身賽:國足2-2戰(zhàn)平莫斯科斯巴達,朱鵬宇、林良銘分別破門

      懂球帝
      2026-01-24 12:26:15
      華人首富黃仁勛現(xiàn)身上海菜市場,還給攤主發(fā)紅包,太接地氣

      華人首富黃仁勛現(xiàn)身上海菜市場,還給攤主發(fā)紅包,太接地氣

      雷科技
      2026-01-24 20:24:00
      中國鬧了個“烏龍”!本想種麥子保產(chǎn)量,卻意外解決了千年難題!

      中國鬧了個“烏龍”!本想種麥子保產(chǎn)量,卻意外解決了千年難題!

      青梅侃史啊
      2026-01-23 22:03:21
      觸目驚心!2025俄羅斯高校集體崩盤,無一所進全球前200

      觸目驚心!2025俄羅斯高校集體崩盤,無一所進全球前200

      老馬拉車莫少裝
      2026-01-22 21:24:42
      【首發(fā)】曼城迎狼隊,格伊迎首秀

      【首發(fā)】曼城迎狼隊,格伊迎首秀

      體壇周報
      2026-01-24 22:07:28
      特朗普搞定格陵蘭馬上撤回對加邀請,下一步就是搞伊朗和加拿大

      特朗普搞定格陵蘭馬上撤回對加邀請,下一步就是搞伊朗和加拿大

      邵旭峰域
      2026-01-23 14:56:26
      葉劍英的最后一任妻子,21歲時嫁給51歲的葉帥,現(xiàn)年96歲身體硬朗

      葉劍英的最后一任妻子,21歲時嫁給51歲的葉帥,現(xiàn)年96歲身體硬朗

      雍親王府
      2026-01-24 06:00:03
      目睹80歲父親臨終的經(jīng)歷后,我才明白:有些病不治才是最大的孝順

      目睹80歲父親臨終的經(jīng)歷后,我才明白:有些病不治才是最大的孝順

      小馬達情感故事
      2025-12-14 18:55:03
      無腦維護牢A的人,才是真正的崇洋媚外者

      無腦維護牢A的人,才是真正的崇洋媚外者

      熊太行
      2025-12-30 09:12:32
      20元香煙四強同臺競技!哪款才是煙民心中的 “口糧之王”?

      20元香煙四強同臺競技!哪款才是煙民心中的 “口糧之王”?

      復(fù)轉(zhuǎn)這些年
      2026-01-22 23:45:26
      baby關(guān)喆滑雪被證實!男方已婚三胎被罵不配,黃曉明坦言不會復(fù)婚

      baby關(guān)喆滑雪被證實!男方已婚三胎被罵不配,黃曉明坦言不會復(fù)婚

      八星人
      2026-01-22 10:14:09
      德國牽頭,北約11國軍演劍指美軍,馬克龍對特朗普下重手

      德國牽頭,北約11國軍演劍指美軍,馬克龍對特朗普下重手

      兵說
      2026-01-23 21:13:48
      東風(fēng)導(dǎo)彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

      東風(fēng)導(dǎo)彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

      冰點歷史
      2025-07-15 09:33:13
      谷愛凌回應(yīng)代表中國參賽

      谷愛凌回應(yīng)代表中國參賽

      上觀新聞
      2026-01-24 06:37:08
      天塌了!留學(xué)圈爆火的“帶球回國”,一下子撕開了鍍金夢最諷刺的真相

      天塌了!留學(xué)圈爆火的“帶球回國”,一下子撕開了鍍金夢最諷刺的真相

      鬼菜生活
      2026-01-23 12:29:17
      7場造6球!金球巨星降維打擊,明演姆巴佩,如今徹底不裝了

      7場造6球!金球巨星降維打擊,明演姆巴佩,如今徹底不裝了

      阿泰希特
      2026-01-24 11:19:09
      商業(yè)航天,利好!本周多股大漲

      商業(yè)航天,利好!本周多股大漲

      證券時報e公司
      2026-01-24 18:36:07
      長得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過得怎樣

      長得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過得怎樣

      銀河史記
      2026-01-23 15:36:04
      江蘇一工程延期因挖到“7000年遺址”?相關(guān)部門回應(yīng)

      江蘇一工程延期因挖到“7000年遺址”?相關(guān)部門回應(yīng)

      大象新聞
      2026-01-24 17:37:10
      財務(wù)造假!300391,強制退市!

      財務(wù)造假!300391,強制退市!

      環(huán)球網(wǎng)資訊
      2026-01-24 12:21:34
      2026-01-24 22:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      越共中央政治局"新面孔"接近一半 現(xiàn)任國家主席沒出現(xiàn)

      頭條要聞

      越共中央政治局"新面孔"接近一半 現(xiàn)任國家主席沒出現(xiàn)

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財經(jīng)要聞

      “百年老字號”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      時尚
      教育
      健康
      游戲
      軍事航空

      冬天最佳“顯瘦”公式:上短+下長

      教育要聞

      傅佩榮:這對父子的對話,揭開了時下多數(shù)家庭的傷疤

      耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

      LPL春季賽:救救TES,哥哥快回來吧!AL三局擊潰TES

      軍事要聞

      俄美烏首次三方會談在阿聯(lián)酋舉行

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产麻豆精品在线观看| 精品无码久久久久久久久久| 精品亚洲国产成人蜜臀av| 午夜成人鲁丝片午夜精品| 国产无码VA| 亚洲人成电影网站 久久影视 | 777米奇色狠狠俺去啦| 色综合中文综合网| 夜夜爽夜夜| 农民人伦一区二区三区| 91乱子伦国产乱子伦| 亚洲va精品va国产va| 熟妇人妻无乱码中文字幕真矢织江 | 午夜成人无码福利免费视频| 麻豆A∨在线| 疯狂三人交性欧美| 成在人线av无码免费高潮水老板| 南宫市| 粗了大了 整进去好爽视频| 超碰人妻在线| 亚洲一区二区三区免费av在线| 久久综合99re88久久爱| 91视频在线观看免费| 精品国产一区av天美传媒| 亚洲色图偷拍| 亚洲欧洲AV| 日韩av无码精品人妻系列| 国语精品国内自产视频| 久久久精品久久久久久96| 乐山市| 免费观看日本污污ww网站| 乐活家庭迅雷| 人妻?日韩?中文?无码?制服| jizz网站| 人妻在线网站| 一区二区AV| 色综合av社区男人的天堂| 好男人视频在线播放| 亚洲色欲综合一区二区三区| 丰满诱人的人妻3| 看亚洲一级黄色片啪啪啪|