<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      擴(kuò)散LLM推理新范式:打破生成長度限制,實現(xiàn)動態(tài)自適應(yīng)調(diào)節(jié)

      0
      分享至



      隨著 Gemini-Diffusion,Seed-Diffusion 等擴(kuò)散大語言模型(DLLM)的發(fā)布,這一領(lǐng)域成為了工業(yè)界和學(xué)術(shù)界的熱門方向。但是,當(dāng)前 DLLM 存在著在推理時必須采用預(yù)設(shè)固定長度的限制,對于不同任務(wù)都需要專門調(diào)整才能達(dá)到最優(yōu)效果。

      為了解決這一本質(zhì)的問題,香港中文大學(xué) MMLab,上海 AI 實驗室等提出 DAEDAL,賦予 DLLM 可以根據(jù)問題的具體情況自主調(diào)整回答長度的能力,彌補(bǔ)了 DLLM 與自回歸 LLM 的關(guān)鍵差距,為更靈活、高效、強(qiáng)大的擴(kuò)散大語言模型打下了基石。



      • 論文標(biāo)題:Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
      • 論文地址:https://arxiv.org/abs/2508.00819
      • 代碼地址:https://github.com/Li-Jinsong/DAEDAL

      DAEDAL 作為一種 Training Free 的去噪策略,從一個統(tǒng)一且很短的初始長度開始,讓模型根據(jù)自己的需求在生成中調(diào)節(jié)長度,動態(tài)擴(kuò)展,達(dá)到了和現(xiàn)有去噪策略在每個評測基準(zhǔn)上精心調(diào)整生成長度得到的最佳性能相當(dāng)?shù)谋憩F(xiàn),有時甚至更勝一籌。



      圖 1 (a) DAEDAL 使用統(tǒng)一且很短的初始長度,在多個基準(zhǔn)上取得了與精心調(diào)優(yōu)的固定長度基線相當(dāng)甚至更優(yōu)的性能。(b) DAEDAL 能夠根據(jù)每個問題,在生成過程中自適應(yīng)地動態(tài)調(diào)整長度,相比之下,現(xiàn)有方法則對所有問題都只能采用單一的固定長度。

      DAEDAL 介紹

      擴(kuò)散大語言模型(DLLM)潛力巨大,但其現(xiàn)有推理流程存在一個關(guān)鍵的問題:需要預(yù)定義的,固定的生成長度。與能夠邊思考邊決定 “說” 多少的人類和自回歸模型不同,現(xiàn)有的 DLLM 需要預(yù)先設(shè)定確切的輸出長度。這導(dǎo)致了一個兩難的困境:設(shè)置太短,模型在復(fù)雜問題上難以發(fā)揮全部實力,可能導(dǎo)致做錯;設(shè)置太長,則會浪費大量的計算資源,同時,實驗中還發(fā)現(xiàn)過長的生成長度可能導(dǎo)致性能下降。

      作者在探索中發(fā)現(xiàn),這一問題的解決方案就蘊(yùn)藏在模型自身之中。DLLM 在生成時會不斷地全局規(guī)劃其整體輸出,而它的預(yù)測置信度正是其內(nèi)部狀態(tài)的強(qiáng)大信號。作者發(fā)現(xiàn)了兩種關(guān)鍵信號:

      • DLLM 在序列末端生成序列結(jié)束符 (EOS) 的意愿直接反映了其對全局預(yù)算的規(guī)劃。當(dāng)預(yù)設(shè)長度充足時,模型會自信地在末尾規(guī)劃出結(jié)束區(qū)域,從而高置信度地預(yù)測 EOS。反之,當(dāng)長度不足時,模型會試圖利用所有可用空間來完成核心內(nèi)容,因而抑制了在末尾生成 EOS 的置信度。
      • 在去噪過程中,對某個特定詞元的極低預(yù)測置信度,則可作為一種局部信號,這不僅代表了模型對該詞元的不確定性,更深層次地,它表明當(dāng)前的局部上下文過于受限,不足以支撐一個復(fù)雜的邏輯步驟或細(xì)節(jié)的展開,或是需要插入空間對過去生成的內(nèi)容進(jìn)行補(bǔ)充和修正。



      圖 2 該熱力圖展示了在對一個長度為 128 的全掩碼輸入進(jìn)行首次預(yù)測后,于序列末端測得的平均 EOS 詞元置信度之差。該差值的計算方式為:用 “長度充足” 問題(在少于 128 長度的 setting 下被正確回答)的平均置信度減去 “長度不足” 問題(僅在長度更長的 setting 才能被正確回答)的平均置信度。圖中大面積的綠色(差值 > 0)表明,對于長度充足的問題,結(jié)尾 EOS 序列置信度更高,驗證了文中的核心發(fā)現(xiàn)。

      基于發(fā)現(xiàn),作者提出了 DAEDAL,一種無需訓(xùn)練的兩階段推理策略,利用這些內(nèi)部信號,賦予 DLLM 根據(jù)每個問題的具體情況,動態(tài)自主調(diào)整回答長度的能力。



      圖 3 DAEDAL 與現(xiàn)有基線方法流程對比

      1. 初始長度調(diào)整 (Initial Length Adjustment): 在去噪流程開始前,DAEDAL 從一個統(tǒng)一的很短初始長度出發(fā)。它會通過檢測序列末端的 EOS 序列平均置信度來衡量:“對于這個任務(wù),當(dāng)前分配的長度是否充足?”。如果置信度很低,即模型規(guī)劃充分利用全部長度,就表明模型認(rèn)為長度預(yù)算不足。此時,DAEDAL 會通過增加 [MASK] 詞元來擴(kuò)展序列長度,并重復(fù)此過程,直到模型確信長度預(yù)算充足。這為任務(wù)設(shè)定了一個合理的全局規(guī)劃長度。

      2. 迭代式掩碼插入 (Iterative Mask Insertion): 在逐步去噪的過程中,DAEDAL 會持續(xù)監(jiān)控模型的置信度。如果它發(fā)現(xiàn)模型對某個 [MASK] 位置極不確定,便會將其標(biāo)記為 “擴(kuò)展點”。DAEDAL 通過將這個單個 [MASK] 替換為由多個 [MASK],動態(tài)且精準(zhǔn)地在模型最需要的地方為序列注入 “思考空間”,以便其在回復(fù)中進(jìn)行補(bǔ)充修補(bǔ),或是有足夠空間去進(jìn)行更復(fù)雜的思考。

      通過結(jié)合這兩個階段,不需要進(jìn)行任何訓(xùn)練,DAEDAL 使得 DLLM 能夠根據(jù)每個問題的具體情況自主調(diào)整其回答的長度,展現(xiàn)了強(qiáng)大的效果。

      實驗結(jié)果





      圖 4 DAEDAL 在 4 個基準(zhǔn)測試上與基線方法性能對比以及生成長度可視化

      DAEDAL 使用統(tǒng)一的短初始長度即可取得強(qiáng)大性能。 實驗結(jié)果清晰地展示了 DAEDAL 的優(yōu)越性能。盡管 DAEDAL 默認(rèn)從一個較短的初始長度開始,但其兩階段的長度調(diào)整與擴(kuò)展機(jī)制,不僅使其性能顯著優(yōu)于使用相同短初始長度的基線方法,更能達(dá)到與基線方法在所有固定長度中精心調(diào)優(yōu)后的峰值性能相當(dāng)、甚至在某些情況下超越后者的水平。

      這一發(fā)現(xiàn)凸顯了 DAEDAL 的有效性,并揭示了固定長度范式的內(nèi)在不便之處,因為基線方法的最佳長度因不同基準(zhǔn)而異,這更強(qiáng)調(diào)了動態(tài)長度適應(yīng)的必要性。為了直觀展示這種動態(tài)適應(yīng)性,圖 3 對比了 DAEDAL 所用總生成長度(N_token)的分布與基線方法所用的單一最佳長度。

      DAEDAL 能自適應(yīng)地找到最佳生成長度。 進(jìn)一步的分析表明,DAEDAL 能智能地預(yù)估并生成恰當(dāng)長度的回答。在多數(shù)情況下,DAEDAL 產(chǎn)生的有效詞元數(shù)(E_token)與基線方法在最佳性能配置下的有效詞元數(shù)相當(dāng)。這表明 DAEDAL 能自適應(yīng)地找到模型內(nèi)在的、針對特定任務(wù)所需詞元長度的 “舒適點”。基線方法的行為也印證了這一點:當(dāng)設(shè)置的長度過長時,即使有效詞元數(shù)可能繼續(xù)增加,性能反而可能會下降。DAEDAL 的自適應(yīng)特性有效避免了這種因過度擴(kuò)展導(dǎo)致的性能下降。

      DAEDAL 能夠提升計算資源利用率。在取得優(yōu)越準(zhǔn)確率的同時,DAEDAL 生成的總詞元數(shù)(N_token)通常低于基線方法在最佳性能 setting 下的總詞元數(shù)。相近的有效詞元數(shù)和更低的總詞元數(shù)帶來了更高的有效詞元利用率(E_ratio)。這大大地提升了計算資源的利用率。

      總結(jié)

      DAEDAL 通過其初始長度調(diào)整(Initial Length Adjustment)和迭代式掩碼插入(Iterative Mask Insertion)機(jī)制,不僅在多個基準(zhǔn)上取得了與精心調(diào)優(yōu)的固定長度基線相當(dāng)甚至更優(yōu)的性能,還能為每個任務(wù)自適應(yīng)地分配合適的長度。這使得模型在性能和計算效率上都取得了實質(zhì)性的提升。DAEDA 彌補(bǔ)了擴(kuò)散大語言模型與自回歸大語言模型在核心能力上的一個關(guān)鍵差距,為更靈活、高效、強(qiáng)大的擴(kuò)散大語言模型打下了基石。

      作者介紹

      本文第一作者是香港中文大學(xué) MMLab 的博士生李勁松,導(dǎo)師林達(dá)華教授,主要研究方向是多模態(tài)大模型和大語言模型。曾在 NeurIPS,ECCV,ACL 等頂級會議發(fā)表多篇論文,Google 學(xué)術(shù)引用超 1400 次。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      烏克蘭戰(zhàn)場新武器:金牛座導(dǎo)彈重塑戰(zhàn)略格局。

      烏克蘭戰(zhàn)場新武器:金牛座導(dǎo)彈重塑戰(zhàn)略格局。

      世界探索者探索
      2026-01-19 22:36:03
      原來馬斯克沒說錯,全球搶的不是芯片,而是中國20萬一臺的變壓器

      原來馬斯克沒說錯,全球搶的不是芯片,而是中國20萬一臺的變壓器

      云上烏托邦
      2026-01-22 13:10:38
      體壇名將放棄中國國籍,轉(zhuǎn)為美國國籍,14歲時在亞運會創(chuàng)造歷史

      體壇名將放棄中國國籍,轉(zhuǎn)為美國國籍,14歲時在亞運會創(chuàng)造歷史

      米修體育
      2026-01-24 12:47:31
      一天能長20公分!陜西河道長滿“綠色毛毯”,魚群數(shù)量減半

      一天能長20公分!陜西河道長滿“綠色毛毯”,魚群數(shù)量減半

      萬象硬核本尊
      2026-01-24 12:28:39
      股票一旦出現(xiàn)"漲停天量陰",毫不猶豫滿倉,不是漲停就是漲個不停

      股票一旦出現(xiàn)"漲停天量陰",毫不猶豫滿倉,不是漲停就是漲個不停

      股經(jīng)縱橫談
      2026-01-19 10:42:15
      特朗普在回國專機(jī)上,宣告了伊朗的結(jié)局,最快48小時內(nèi)見證歷史?

      特朗普在回國專機(jī)上,宣告了伊朗的結(jié)局,最快48小時內(nèi)見證歷史?

      娛樂的宅急便
      2026-01-24 16:24:43
      銷量暴跌19%,理想汽車想靠內(nèi)卷增程自救

      銷量暴跌19%,理想汽車想靠內(nèi)卷增程自救

      識礁Farsight
      2026-01-22 22:04:15
      美媒昭告全球: 中國不償還100年前的債務(wù),美國將不承認(rèn)欠中國的

      美媒昭告全球: 中國不償還100年前的債務(wù),美國將不承認(rèn)欠中國的

      諾諾談史
      2026-01-21 16:21:32
      達(dá)沃斯爆猛料!布達(dá)諾夫證實大國未向俄羅斯供武器

      達(dá)沃斯爆猛料!布達(dá)諾夫證實大國未向俄羅斯供武器

      老馬拉車莫少裝
      2026-01-23 00:05:42
      浙江男子總感覺喉嚨不舒服,脖子右側(cè)有腫塊,確診HPV還有癌癥中晚期!這個夫妻親密習(xí)慣是誘因

      浙江男子總感覺喉嚨不舒服,脖子右側(cè)有腫塊,確診HPV還有癌癥中晚期!這個夫妻親密習(xí)慣是誘因

      環(huán)球網(wǎng)資訊
      2026-01-10 19:59:06
      記者:曼聯(lián)會非常認(rèn)真考慮德澤爾比,24年他就是候選人領(lǐng)跑者

      記者:曼聯(lián)會非常認(rèn)真考慮德澤爾比,24年他就是候選人領(lǐng)跑者

      懂球帝
      2026-01-24 21:47:32
      最偉大華語片,很多人認(rèn)為是這部

      最偉大華語片,很多人認(rèn)為是這部

      虹膜
      2026-01-23 20:49:33
      步行者117-114客場勝聯(lián)盟第一,亞歷山大空砍63年神跡

      步行者117-114客場勝聯(lián)盟第一,亞歷山大空砍63年神跡

      老做體育解說
      2026-01-24 21:26:05
      有人問及如何評價周總理,黃永勝回憶:外交上是一把好手,搞內(nèi)政堪稱八級泥瓦

      有人問及如何評價周總理,黃永勝回憶:外交上是一把好手,搞內(nèi)政堪稱八級泥瓦

      源溯歷史
      2025-12-22 12:14:13
      上海又將添一條美食街!云南南路老字號組團(tuán)搬去哪兒了?排隊還長伐?開業(yè)優(yōu)惠全碼住

      上海又將添一條美食街!云南南路老字號組團(tuán)搬去哪兒了?排隊還長伐?開業(yè)優(yōu)惠全碼住

      新民晚報
      2026-01-24 14:14:01
      仗打了一千多天后,美國才后知后覺發(fā)現(xiàn)不對勁:中國三年前的抉擇竟早已是正確答案!

      仗打了一千多天后,美國才后知后覺發(fā)現(xiàn)不對勁:中國三年前的抉擇竟早已是正確答案!

      源溯歷史
      2026-01-13 23:29:12
      中方收到入群邀請函,特朗普也翻臉了:關(guān)稅加到200%!受害者出現(xiàn)

      中方收到入群邀請函,特朗普也翻臉了:關(guān)稅加到200%!受害者出現(xiàn)

      戰(zhàn)旗紅
      2026-01-24 21:55:24
      惠州樓市的傳奇來了,惠州待售二手房從110497套變成了111237套

      惠州樓市的傳奇來了,惠州待售二手房從110497套變成了111237套

      有事問彭叔
      2026-01-24 00:49:41
      葉劍英詢問許世友:南京軍區(qū)還聽你調(diào)遣嗎?許世友直言:軍區(qū)司令就是我的貼身保鏢

      葉劍英詢問許世友:南京軍區(qū)還聽你調(diào)遣嗎?許世友直言:軍區(qū)司令就是我的貼身保鏢

      清風(fēng)鑒史
      2025-12-24 15:02:13
      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      素衣讀史
      2026-01-23 17:20:48
      2026-01-24 22:47:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      被雪豹咬傷女子從急診轉(zhuǎn)出 目擊者:她沒有去摸豹子

      頭條要聞

      被雪豹咬傷女子從急診轉(zhuǎn)出 目擊者:她沒有去摸豹子

      體育要聞

      當(dāng)家球星打替補(bǔ),他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財經(jīng)要聞

      “百年老字號”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      教育
      本地
      公開課

      藝術(shù)要聞

      303米!這座“涌泉”之樓,是綠地在濟(jì)南拿下的首個“第一高”

      大錘要做武術(shù)題材《使命召喚》?又是工作經(jīng)歷暴露!

      教育要聞

      傅佩榮:陪伴變監(jiān)工,放養(yǎng)又不敢,當(dāng)代父母養(yǎng)娃焦慮,看完就好了

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品无码午夜福利| 亚洲网在线| 久久久久久性高| 国产人妻精品午夜福利免费| 99久久机热/这里只有精品| 国产亚洲视频免费播放| 欧美家庭乱伦XX| 亚欧成人无码av在线播放| 牛牛视频一区二区三区| 日韩秘 无码一区二区三区| 国精产品一区一区三区mba下载| 精品国产自线午夜福利| 99无码中文字幕视频| 国产日韩av二区三区| 日韩一区二区三区三四区视频在线观看 | 制服丝袜无码| 国产又色又爽又黄的网站免费| 中文字幕av久久爽一区| 999白浆| 安徽省| 亚洲国产另类久久久精品网站| 亚洲AV永久无码天堂网一线| 中文字幕日本有码| 伊人久久大香线蕉av一区| 香蕉人人超人人超碰超国产| 毛片亚洲AV无码精品国产午夜| 五月丁香中文字幕| 国产婬妇无码无遮挡A片在线观看| 日本二区视频在线观看| 91久久精品国产| 最新国产精品中文字幕| 库伦旗| 中日韩中文字幕一区二区| 亚洲一页在线| 凹凸国产熟女精品视频| 星座| 国产高清一国产av| 国产精品成人三级| 日韩高清卡1卡2卡3麻豆无卡| 日本三级成本人网站| 免费费很色大片欧一二区|