<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Stable-DiffCoder超越自回歸模型!擴(kuò)散模型在代碼生成取得新突破

      0
      分享至

      機(jī)器之心編輯部

      擴(kuò)散語(yǔ)言模型(Diffusion Language Models, DLLMs)因其多種潛在的特性而備受關(guān)注,如能加速的非自回歸并行生成特性,能直接起草編輯的特性,能數(shù)據(jù)增強(qiáng)的特性。然而,其模型能力往往落后于同等規(guī)模的強(qiáng)力自回歸(AR)模型。

      近日,華中科技大學(xué)和字節(jié)跳動(dòng)聯(lián)合推出了Stable-DiffCoder。這不僅僅是一個(gè)新的擴(kuò)散代碼模型,更是一次關(guān)于 「擴(kuò)散訓(xùn)練能否提升模型能力上限」 的深度探索。

      Stable-DiffCoder 在完全復(fù)用 Seed-Coder 架構(gòu)、數(shù)據(jù)的條件下,通過(guò)引入Block Diffusion 持續(xù)預(yù)訓(xùn)練(CPT)及一系列穩(wěn)定性優(yōu)化策略,成功實(shí)現(xiàn)了性能反超。在 多個(gè) Code 主流榜單上(如 MBPP,BigCodeBench 等),它不僅擊敗了其 AR 原型,更在 8B 規(guī)模下超越了 Qwen2.5-Coder ,Qwen3,DeepSeek-Coder 等一眾強(qiáng)力開(kāi)源模型,證明了擴(kuò)散訓(xùn)練范式本身就是一種強(qiáng)大的數(shù)據(jù)增強(qiáng)手段。



      • 論文標(biāo)題:Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model
      • 論文鏈接: https://arxiv.org/pdf/2601.15892
      • Github 鏈接: https://github.com/ByteDance-Seed/Stable-DiffCoder
      • 模型鏈接: https://huggingface.co/collections/ByteDance-Seed/stable-diffcoder



      擴(kuò)散過(guò)程難以高效學(xué)習(xí)樣本知識(shí)

      擴(kuò)散過(guò)程雖然表面上可以擴(kuò)充很多數(shù)據(jù),可以作為一個(gè)數(shù)據(jù)增強(qiáng)的手段,但是實(shí)際上會(huì)引入很多噪聲甚至錯(cuò)誤知識(shí)的學(xué)習(xí)。

      例如下面的例子:

      將其 mask 成



      可以發(fā)現(xiàn)對(duì)于最后一個(gè) mask_n,其只能在看見(jiàn) a=1,b=2 的情況下去學(xué)習(xí) a+b=7,會(huì)形成錯(cuò)誤的知識(shí)映射。最后充其量也只能學(xué)到,a=3,b=4 在 a+b = 這個(gè)語(yǔ)境下的共現(xiàn)概率更大一點(diǎn),不能學(xué)到明確的加法規(guī)則。

      token 推理的知識(shí)和流程設(shè)計(jì)

      論文通過(guò)建模這個(gè)知識(shí)的學(xué)習(xí)來(lái)解釋這個(gè)現(xiàn)象:



      假設(shè) c 是當(dāng)前可見(jiàn)的樣本,根據(jù)真實(shí)分布通過(guò)這些樣本在當(dāng)前位置能夠推理出的 token 集合為 C (c),大小為 K (c)(這里多個(gè) token 同時(shí)推理的情景一致,因此只簡(jiǎn)單的考慮單個(gè) token 推理)。由于使用的真實(shí)分布來(lái)定義的,所以 c 越多越干凈的時(shí)候,K (c) 越小。



      因此,如果用純雙向的擴(kuò)散過(guò)程,在 mask 比例較大的時(shí)候,當(dāng)前 token 見(jiàn)到的 c 變小,不干凈的概率變大,導(dǎo)致 K (c) 變大,難以映射到清晰的規(guī)則。同時(shí)其會(huì)產(chǎn)生會(huì)產(chǎn)生各種各樣的 c,平均每個(gè) c 的學(xué)習(xí)量會(huì)減小。另外,還要保證訓(xùn)練采樣的 c 跟推理用的 c 是一致的,才能更好的使用訓(xùn)練學(xué)習(xí)的知識(shí)。

      接下來(lái)論文通過(guò)在 2.5B 的模型設(shè)計(jì)實(shí)驗(yàn)來(lái)進(jìn)一步闡釋并證明這個(gè)結(jié)論。論文從一個(gè) AR model 初始化,然后訓(xùn)練一段新的知識(shí)。論文設(shè)計(jì)了 3 個(gè)訓(xùn)練方式來(lái)探索:



      (1)AR->BiDLLM: 用 AR 的方式繼續(xù)訓(xùn)練,在 100k step 的時(shí)候 CPT 成雙向的 DLLM。

      (2)ARDLLM->BiDLLM: 用 AR 的結(jié)構(gòu),但是使用純雙向的采樣模式來(lái)訓(xùn)練。然后 100k step CPT 成 BiDLLM。

      (3)BiDLLM:使用純雙向的 DLLM 訓(xùn)練。

      可以發(fā)現(xiàn),最后效果是(1)>(2)>(3),這也符合前面的理論。不用隨機(jī) [MASK] 的(1)方案對(duì)于知識(shí)有更快的壓縮速度,并且轉(zhuǎn)換成 BiDLLM 也保持著最佳性能,這可以證明在要高效的學(xué)好一個(gè) DLLM,可以用 AR 或者小 block size 的 block diffusion 來(lái)進(jìn)行知識(shí)壓縮。另外有趣的是,在 block=32 時(shí)(1)和(2)的表現(xiàn)比(3)差,但是在 100k 之后表現(xiàn)比(3)好。100k 之前可以說(shuō)明,AR 采樣的 c 跟 block size=32 推理過(guò)程的 c 不太匹配,但是由于 AR 壓縮了大量有用的知識(shí),稍微 CPT 一下就能適配這種推理過(guò)程。同時(shí)也可以說(shuō)明,AR 這種結(jié)構(gòu)的先驗(yàn),可能更適合 prompt+response 這種從左側(cè)開(kāi)始推理的過(guò)程。

      因此我們將訓(xùn)練流程設(shè)計(jì)為,先用 AR 壓縮一遍知識(shí),然后用 AR 退火的前一個(gè) checkpoint 繼續(xù) CPT 成小 block 的 block diffusion,來(lái)探索 diffusion 過(guò)程的數(shù)據(jù)增強(qiáng)能力。

      穩(wěn)定的 DLLM warmup 策略持續(xù)預(yù)訓(xùn)練設(shè)計(jì)

      擴(kuò)散模型的持續(xù)預(yù)訓(xùn)練通常對(duì)超參數(shù)的設(shè)計(jì)(如學(xué)習(xí)率)非常敏感,容易出現(xiàn) grad norm 的異常變高,這也會(huì)受到各種訓(xùn)練架構(gòu)的影響。為了保持各種訓(xùn)練架構(gòu)的學(xué)習(xí)穩(wěn)定,以及繁雜的調(diào)參過(guò)程,團(tuán)隊(duì)設(shè)計(jì)了一種適配的 warmup 策略。



      DLLM 的 CPT 過(guò)程不穩(wěn)定主要受到下面 3 個(gè)原因影響:

      (1)Attention 從單向變成雙向

      (2)Mask 變多導(dǎo)致任務(wù)變得很難

      (3)為了對(duì)齊 ELBO,會(huì)在交叉熵前面乘上加權(quán)系數(shù)。比如只 mask 了一個(gè) token,會(huì)等價(jià)于只計(jì)算了這個(gè) token 的 loss,會(huì)大幅增大這個(gè) token 對(duì)于梯度的影響,進(jìn)而影響 grad norm 和 loss。

      由于退火 attention 的方式難以靈活適配 flash attention 等架構(gòu),該團(tuán)隊(duì)針對(duì)(2)(3)來(lái)設(shè)計(jì) warmup 過(guò)程。具體的,在 warmup 階段將 mask 比例上界逐漸 warmup 到最大值,從而使得一開(kāi)始任務(wù)從易變難。



      其次,在 warmup 階段去掉交叉熵中加權(quán)的系數(shù),從而讓每個(gè) token 對(duì) loss 的影響更平穩(wěn):



      Block-wise 截?cái)嗟脑肼曊{(diào)度

      在使用 block diffusion 時(shí),由于通過(guò) cross attention 拼接了干凈的前綴,可以使得每個(gè) token 都產(chǎn)生有用的 loss。然而如果使用傳統(tǒng)的 noise schedule 會(huì)使得有些塊不產(chǎn)生 loss 信號(hào),通過(guò)求解積分可以算出 block 不產(chǎn)生信號(hào)的概率如下,這在小 block 時(shí)會(huì)特別明顯:



      因此團(tuán)隊(duì)做了兩個(gè)設(shè)計(jì):(1)強(qiáng)制每個(gè)塊都采樣一個(gè) token(2)將 noise 采樣下界設(shè)置為 1/B,這樣可以使得至少期望采樣一個(gè) token。同時(shí)可以避免強(qiáng)制采樣 1 個(gè) token 之后,原本對(duì)應(yīng)的 t 過(guò)小,從而使得交叉熵加權(quán)過(guò)大的問(wèn)題。



      實(shí)驗(yàn)結(jié)果:多個(gè)代碼 benchmark 在 8B 左右的模型保持領(lǐng)先

      對(duì)于 Base 模型







      Stable-DiffCoder-8B-Base 在代碼生成,多代碼語(yǔ)言生成,代碼推理上表現(xiàn)出色。超過(guò)一系列 AR 和 diffusion-based 的模型。另外可以發(fā)現(xiàn)模型在稀疏代碼語(yǔ)言上(如 C#,PHP 等,預(yù)訓(xùn)練中數(shù)據(jù)較少),相比于 AR baseline 得到了大幅增強(qiáng),可以證明 DLLM 的訓(xùn)練過(guò)程起到了一定的數(shù)據(jù)增強(qiáng)的效果。同時(shí)在代碼推理能力上也得到了增強(qiáng)。

      對(duì)于 Instruct 模型

      Stable-DiffCoder-8B-Instruct 在代碼生成,代碼編輯,代碼推理等任務(wù)上做了綜合評(píng)測(cè),并有著優(yōu)越的表現(xiàn)。其中在常用的任務(wù)(humaneval,mbpp)上大幅超過(guò)原有 AR baseline 和其他 8B 左右的 DLLM model。在測(cè)試集閉源的 MHPP 達(dá)到 qwen32B 的水平,BigCodeBench 上更是超過(guò)一系列模型并僅次于 DeepSeek236B 的模型。同時(shí)在代碼編輯 CanItEdit 任務(wù)上更是有著驚艷的效果。











      總結(jié)與展望

      Stable-DiffCoder 的發(fā)布,打破了 「擴(kuò)散模型只能做并行加速」 的刻板印象。它證明了:擴(kuò)散訓(xùn)練范式本身就是一種極佳的表征學(xué)習(xí)手段。通過(guò)合理的課程設(shè)計(jì)及穩(wěn)定性優(yōu)化,擴(kuò)散模型完全可以在代碼理解和生成質(zhì)量上超越傳統(tǒng)的 AR 模型。

      對(duì)于未來(lái)的大模型演進(jìn),Stable-DiffCoder 提示了一條新路徑:也許我們不需要拋棄 AR,而是將 AR 作為高效的知識(shí)壓縮器,再利用 Diffusion 作為 「強(qiáng)化劑」,進(jìn)一步推高模型的智能上限。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      Shams:多隊(duì)欣賞莫蘭特的能力,但沒(méi)有球隊(duì)愿意提供重要報(bào)價(jià)

      Shams:多隊(duì)欣賞莫蘭特的能力,但沒(méi)有球隊(duì)愿意提供重要報(bào)價(jià)

      懂球帝
      2026-02-06 08:04:05
      豪橫!海港隊(duì)1170萬(wàn)簽下中超 “搶斷王”,申花隊(duì)左右為難了

      豪橫!海港隊(duì)1170萬(wàn)簽下中超 “搶斷王”,申花隊(duì)左右為難了

      何老師呀
      2026-02-06 14:11:23
      陪玩陪睡不夠!集體開(kāi)嫖、舔手指、目無(wú)王法,陰暗面徹底藏不住了

      陪玩陪睡不夠!集體開(kāi)嫖、舔手指、目無(wú)王法,陰暗面徹底藏不住了

      好賢觀史記
      2025-11-09 21:58:39
      美防長(zhǎng)曾語(yǔ)出驚人:若中美開(kāi)戰(zhàn)20分鐘的話,中國(guó)將打掉美所有航母

      美防長(zhǎng)曾語(yǔ)出驚人:若中美開(kāi)戰(zhàn)20分鐘的話,中國(guó)將打掉美所有航母

      小陳講史
      2026-02-05 14:30:52
      中美元首通話,對(duì)特朗普開(kāi)門見(jiàn)山,中方有句話還是第一次見(jiàn)

      中美元首通話,對(duì)特朗普開(kāi)門見(jiàn)山,中方有句話還是第一次見(jiàn)

      清歡百味
      2026-02-06 15:34:58
      美媒報(bào)道:2008年跳樓自殺的頂級(jí)模特魯斯拉娜,的確是蘿莉島女孩

      美媒報(bào)道:2008年跳樓自殺的頂級(jí)模特魯斯拉娜,的確是蘿莉島女孩

      老范談史
      2025-12-24 17:24:57
      善惡終有報(bào)!88歲癱坐在輪椅上的謝賢,已活成了一個(gè)“笑話”

      善惡終有報(bào)!88歲癱坐在輪椅上的謝賢,已活成了一個(gè)“笑話”

      人間無(wú)味啊
      2026-01-14 19:49:15
      近40歲的金刻羽,為何甘愿被浙江土豪圍獵而非婚生女?

      近40歲的金刻羽,為何甘愿被浙江土豪圍獵而非婚生女?

      波哥看樓市
      2026-02-05 23:51:51
      蘇聯(lián)歷史慘痛一頁(yè):事后當(dāng)局立馬清洗現(xiàn)場(chǎng),匆匆掩埋遇難者遺體

      蘇聯(lián)歷史慘痛一頁(yè):事后當(dāng)局立馬清洗現(xiàn)場(chǎng),匆匆掩埋遇難者遺體

      云霄紀(jì)史觀
      2026-01-30 01:47:42
      40歲印度裔第二夫人挺四胎孕肚亮相米蘭,又讓仨娃隨行,惹爭(zhēng)議

      40歲印度裔第二夫人挺四胎孕肚亮相米蘭,又讓仨娃隨行,惹爭(zhēng)議

      譯言
      2026-02-06 06:58:51
      大爆冷!2換1特雷楊+9換4濃眉哥連續(xù)補(bǔ)強(qiáng)后 倒數(shù)第二力擒東部第一

      大爆冷!2換1特雷楊+9換4濃眉哥連續(xù)補(bǔ)強(qiáng)后 倒數(shù)第二力擒東部第一

      鍋?zhàn)踊@球
      2026-02-06 12:29:37
      美國(guó)將加速生產(chǎn)五種關(guān)鍵導(dǎo)彈,軍事專家解讀

      美國(guó)將加速生產(chǎn)五種關(guān)鍵導(dǎo)彈,軍事專家解讀

      環(huán)球網(wǎng)資訊
      2026-02-06 06:49:31
      《太平年》中的“君子”水丘昭券下線,現(xiàn)在還有人姓“水丘”嗎

      《太平年》中的“君子”水丘昭券下線,現(xiàn)在還有人姓“水丘”嗎

      東方不敗然多多
      2026-02-05 19:24:37
      江西男子取亡父15萬(wàn)遭拒,遺體殯儀館急用錢,銀行:國(guó)家規(guī)定

      江西男子取亡父15萬(wàn)遭拒,遺體殯儀館急用錢,銀行:國(guó)家規(guī)定

      社會(huì)日日鮮
      2026-02-06 06:11:39
      蘇聯(lián)為什么一直發(fā)展不起輕工業(yè)?根本原因其實(shí)是人口限制

      蘇聯(lián)為什么一直發(fā)展不起輕工業(yè)?根本原因其實(shí)是人口限制

      汪茫的創(chuàng)業(yè)之路
      2026-02-04 14:28:12
      瑞典,挪威,芬蘭北歐三國(guó)地處惡劣寒地,經(jīng)濟(jì)實(shí)力為何如此強(qiáng)大呢

      瑞典,挪威,芬蘭北歐三國(guó)地處惡劣寒地,經(jīng)濟(jì)實(shí)力為何如此強(qiáng)大呢

      向航說(shuō)
      2025-12-17 00:05:03
      他逃亡16年,靠贓款娶4個(gè)漂亮老婆生12個(gè)娃,被捕時(shí)身家有幾個(gè)億

      他逃亡16年,靠贓款娶4個(gè)漂亮老婆生12個(gè)娃,被捕時(shí)身家有幾個(gè)億

      小熊侃史
      2026-01-12 07:30:14
      四川一校花太漂亮了,身高170五官精致,美得讓人移不開(kāi)眼

      四川一?;ㄌ亮耍砀?70五官精致,美得讓人移不開(kāi)眼

      阿廢冷眼觀察所
      2026-01-29 08:24:05
      星鏈斷網(wǎng)致前線俄軍失去行動(dòng)能力,波蘭總理訪烏帶來(lái)軍援大禮包

      星鏈斷網(wǎng)致前線俄軍失去行動(dòng)能力,波蘭總理訪烏帶來(lái)軍援大禮包

      近距離
      2026-02-06 14:29:31
      181個(gè)國(guó)家研究發(fā)現(xiàn):吃得越咸,壽命越長(zhǎng)?清淡有罪,真的嗎

      181個(gè)國(guó)家研究發(fā)現(xiàn):吃得越咸,壽命越長(zhǎng)?清淡有罪,真的嗎

      蜉蝣說(shuō)
      2026-02-06 11:34:04
      2026-02-06 16:27:03
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12265文章數(shù) 142564關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)角獸版圖巨變:SpaceX奔萬(wàn)億 中美差在哪

      頭條要聞

      長(zhǎng)和巴拿馬港口遭接管 百億美元全球港口出售計(jì)劃生變

      頭條要聞

      長(zhǎng)和巴拿馬港口遭接管 百億美元全球港口出售計(jì)劃生變

      體育要聞

      西甲射手榜第2,身價(jià)不到姆巴佩1/40

      娛樂(lè)要聞

      微博之夜紅毯好精彩,堪比婚禮現(xiàn)場(chǎng)

      財(cái)經(jīng)要聞

      愛(ài)爾眼科卷入騙保疑云 公司回應(yīng)

      汽車要聞

      這顏值真的可以!方程豹首款轎車叫"鎂7"還是"方程"?

      態(tài)度原創(chuàng)

      藝術(shù)
      健康
      房產(chǎn)
      教育
      軍事航空

      藝術(shù)要聞

      Kristin Vestgard:挪威當(dāng)代畫家

      轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

      房產(chǎn)要聞

      新春三亞置業(yè),看過(guò)這個(gè)熱盤再說(shuō)!

      教育要聞

      取消中高考?講講為孩子、為國(guó)家,教育該往哪走#高考 #教育

      軍事要聞

      不懼以軍攔截 “全球堅(jiān)韌船隊(duì)”將再赴加沙

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版