<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      擴散語言模型推理太慢?北大團隊:ODB-dLLM破解計算訪存雙重瓶頸

      0
      分享至



      本研究由北京大學研究團隊完成。通訊作者為李萌,北京大學人工智能研究院和集成電路學院助理教授,博導,PKU SEC Lab 負責人,他的研究興趣集中于高效、安全人工智能加速算法和芯片,旨在通過算法到芯片的跨層次協同設計和優化,為人工智能構建高能效、高可靠、高安全的算力基礎。第一作者韋臨燁,北京大學集成電路學院博士一年級在讀,主要研究方向為多模態高效 AI 系統和加速器設計。

      基于擴散的大語言模型 (dLLM) 憑借全局解碼和雙向注意力機制解鎖了原生的并行解碼和受控生成的潛力,最近吸引了廣泛的關注。例如 Fast-dLLM 的現有推理框架通過分塊半自回歸解碼進一步實現了 dLLM 對 KV cache 的支持,挑戰了傳統自回歸 LLMs 的統治地位。

      然而,雙向注意力引入的 cache 刷新機制使這一推理過程成為預填充 / 解碼交錯的模式,將傳統自回歸模型解碼階段效率的訪存瓶頸限制轉化為計算 / 訪存瓶頸交替限制,占據了推理開銷中不可忽視的一部分。此外,認為整個序列 KV 狀態在分塊內不變的緩存近似方式還一定程度上劣化了模型性能。

      針對這一缺陷,來自北大的研究團隊提出一種新的 dLLM 推理加速框架 ODB-dLLM(Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models)。它通過分析現有 dLLM 推理框架中交錯的計算和訪存瓶頸階段,引入了自適應長度預測策略和跳躍共享推測解碼,以優化 dLLM 在硬件平臺上的計算訪存特性,最大限度地提高推理效率。



      • 論文標題:Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
      • 論文鏈接:https://arxiv.org/abs/2511.21759
      • Github 鏈接:https://github.com/PKU-SEC-Lab/ODB-dLLM

      研究背景和動機


      傳統 dLLM 模型中任意兩個 token 間的雙向注意力破壞了 KV cache 應用的前提,讓整個推理過程陷入每一步都執行預填充的計算瓶頸問題,沒有取得超越自回歸模型的實際推理速度。Fast-dLLM 及類似工作將預設定長度的輸出序列劃分為多個分塊,只在每個分塊解碼的第一步執行預填充并存儲全局的的 KV 狀態,隨后計算分塊內的 tokens 并基于置信度閾值接收。當一個分塊內的所有位置都被解掩碼,轉到下一個分塊并刷新 KV cache。然而,這樣的推理框架仍然存在以下挑戰:

      • 交錯的計算和訪存瓶頸模式都限制了效率。分塊半自回歸解碼的每個新塊都會觸發全局預填充以刷新 KV cache,占總推理延遲的 30-40%。隨著更細粒度的并行解碼設計來減少解碼步數,計算密集型的預填充階段將進一步占據主導地位。亟需一個算術強度感知的推理框架聯合緩解計算和訪存瓶頸。

      • 以現有的 dLLM 無法感知實際任務需求,導致預設定輸出長度過長。dLLM 中的每個分塊都采用雙向注意力,以先前和后續令牌為條件。因此,需要固定的響應長度來控制剩余的輸出空間。為了確保足夠的容量,該長度通常設置為較大的默認值(例如 1024),這會在計算密集型的預填充階段引入大量開銷并導致冗余推理。

      • 硬閾值延遲了對潛在正確 token 的接受,導致更長的解碼軌跡和更多的步數。在訪存密集型的解碼階段,模型并行計算分塊內的所有掩碼 token,但僅接受置信度超過閾值的部分,而其他 token 則被重新掩碼。大量正確 token 由于在當前步的置信度分數低于閾值而被推遲接收,從而導致額外的解碼步驟并增加不必要延遲。與此同時,直接降低閾值又會損害模型性能。




      ODB-dLLM 框架


      ODB-dLLM 推理框架的目標在于協調交錯的計算和訪存瓶頸限制。為了減輕預設定響應長度帶來的大量預填充開銷,本文提出了一種自適應長度預測策略來減少冗余計算。此外,本文引入了為 dLLM 特別定制的跳躍共享推測解碼方法,可在有限的算術強度下減少訪存受限階段的解碼步驟。

      自適應長度預測

      該策略在每一輪預填充后考察整個響應序列,檢測是否存在 [EOS] token。一旦識別出存在這一終止標記,就會提取其置信度分數并將其與預定義的截斷閾值進行比較。如果置信度超過閾值,則響應將在該位置被截斷。如果未檢測到 [EOS] token,或者對應的置信度均低于閾值,則響應長度保持不變。這種漸進式策略最大限度地減少了預填充階段的算術強度和冗余計算,隨著模型的不確定性和多樣性逐漸收斂還帶來了性能增益。



      跳躍共享推測解碼

      推測解碼通過增加計算強度鼓勵多樣化預測,為訪存受限場景下進一步提高解碼的并行度提供了解決方案。然而,dLLM 推理的雙向注意力將 token 間的因果依賴轉化為全局依賴,在傳統推測解碼中構造的遵循嚴格順序的 token tree 被全連通 token graph 所取代。因此,一方面候選 token graph 中任何獨立驗證的節點對都會解鎖其連接邊緣,從而實現更靈活的推測解碼探索;另一方面任意一個 token 的改變都需要計算一個完整的新塊,計算強度隨候選預測的增加而迅速增大并演化為訪存瓶頸,限制了推測的多樣性。基于此,本文提出了兩點關鍵設計:

      1. 跳躍接收推測策略。推測解碼的草稿塊也同時作為中間驗證塊,實現草稿 token 跨塊的跳躍驗證和接收,從而在單次解碼迭代中解掩碼更多 token,在有限的推測塊預算下顯著提高解碼效率。



      2. 解碼共享推測策略。考慮各推測塊間的高度相似性,塊內已解碼 token 的 KV 狀態也可以只在當前塊內計算更新,并在多個推測塊之間共享。隨著解碼的進展,推測塊的計算成本逐漸降低,為更多推測快的拓展提供了機會。



      實驗結果:更快、更準

      研究團隊在兩種代表性的開源擴散語言模型LLaDA-Instruct和 LLaDA-1.5 上評估了 ODB-dLLM。在多個數據集上對比 Vanilla model 和 Fast-dLLM 推理框架結果如下:





      • 團隊測量了預填充長度和延遲的減少,確認了計算密集階段有意義的算術強度節省。此外,每次預填充迭代期間響應長度的逐步收縮隱式地將模型限制在更準確的答案空間,從而比生成到 [EOS] token 后簡單地截斷產生更高的精度。



      • 針對訪存密集階段的推測解碼,實驗發現跳躍接收策略增加了每步接受的 token 數量,并通過一次解碼中的多段接收減少了并行解掩碼 token 間的潛在沖突。解碼共享策略的引入進一步減少了解碼輪次,同時優先解掩碼之前未能接受但置信度較高的 token。跳躍共享推測解碼因而在速度和精度上都取得了顯著增益。



      總結


      受預填充和解碼階段異構算術強度的啟發,本研究提出了 ODB-dLLM,這是一個協調計算 / 訪存雙邊界以加速 dLLM 推理的框架。在預填充階段,團隊發現預定義的固定響應長度引入了繁重且冗余的計算開銷,ODB-dLLM 采用了自適應長度預測機制,可逐步減少預填充開銷和不必要的計算。在解碼階段,團隊分析了擴散語言模型的計算特性,并提出了一種特別定制的跳躍共享推測解碼方法,通過減少解碼迭代次數來提高效率。

      論文與代碼均已公開,歡迎感興趣的同學閱讀、復現以及深入討論。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

      86年我放走一個越南女兵,33年后我剛出越南機場就被一排軍車接走

      蕭竹輕語
      2025-12-05 17:38:25
      醫生:每天能堅持走路的老人,過不了幾個月,身體會迎來6大變化

      醫生:每天能堅持走路的老人,過不了幾個月,身體會迎來6大變化

      醫學原創故事會
      2025-12-10 23:54:16
      湖南省漢壽縣人大常委會原主任李學文被開除黨籍

      湖南省漢壽縣人大常委會原主任李學文被開除黨籍

      三湘都市報
      2025-12-10 18:09:56
      關于性欲的真相(適用于所有人)

      關于性欲的真相(適用于所有人)

      心理咨詢師陳實
      2025-12-03 22:10:03
      中國股票,突傳利好!

      中國股票,突傳利好!

      數據寶
      2025-12-11 07:31:56
      泰國陸軍總司令誓言:徹底瓦解柬軍戰力,守護子孫安全

      泰國陸軍總司令誓言:徹底瓦解柬軍戰力,守護子孫安全

      老馬拉車莫少裝
      2025-12-08 20:30:19
      越扒越有!最快護士張水華被處分后,評論區炸了

      越扒越有!最快護士張水華被處分后,評論區炸了

      吃瓜局
      2025-12-11 15:16:25
      楊瀚森面部挫傷出戰成疑!想帶病訓練 剛到球館就被安排回家休養

      楊瀚森面部挫傷出戰成疑!想帶病訓練 剛到球館就被安排回家休養

      羅說NBA
      2025-12-11 07:12:49
      母親把500萬拆遷款給大哥,我辭職賣房出國,除夕夜她打來電話

      母親把500萬拆遷款給大哥,我辭職賣房出國,除夕夜她打來電話

      楓紅染山徑
      2025-12-11 11:23:35
      一代傳奇落幕!5大超級巨星無人問津,擺爛都不要,兩大狀元領銜

      一代傳奇落幕!5大超級巨星無人問津,擺爛都不要,兩大狀元領銜

      老侃侃球
      2025-12-10 16:45:46
      愿賭服輸!豪言海港奪冠就跳黃浦江?媒體人兌現承諾,果然夠爺們

      愿賭服輸!豪言海港奪冠就跳黃浦江?媒體人兌現承諾,果然夠爺們

      萌蘭聊個球
      2025-12-10 16:58:51
      奧巴馬深夜長嘆:我們想動手,但中國30年沒給任何機會

      奧巴馬深夜長嘆:我們想動手,但中國30年沒給任何機會

      小噎論事
      2025-12-11 12:56:20
      硬抗中方32天,日媒稱高市早苗不道歉只剩一條路:19年前就有先例

      硬抗中方32天,日媒稱高市早苗不道歉只剩一條路:19年前就有先例

      歷史有些冷
      2025-12-10 14:00:08
      21999元!新機官宣:12月10日,正式開售!

      21999元!新機官宣:12月10日,正式開售!

      科技堡壘
      2025-12-10 12:14:23
      不看好為什么還要選?開拓者媒體人怒批楊瀚森,不出3年被裁掉!

      不看好為什么還要選?開拓者媒體人怒批楊瀚森,不出3年被裁掉!

      緋雨兒
      2025-12-11 13:35:36
      美專家:中國不可怕,可怕的是中國塔里木盆地下藏著地下海洋!

      美專家:中國不可怕,可怕的是中國塔里木盆地下藏著地下海洋!

      青煙小先生
      2025-11-28 21:22:03
      中央政治局會議定調財政新航向:以“更加積極”實現經濟穩增長

      中央政治局會議定調財政新航向:以“更加積極”實現經濟穩增長

      中國經營報
      2025-12-11 16:28:10
      國籍嚴查打響第一槍!華人被攔機場,“雙面人”中國堅決不要!

      國籍嚴查打響第一槍!華人被攔機場,“雙面人”中國堅決不要!

      青仔的世界
      2025-12-07 05:16:52
      震驚:快船裁掉保羅之后,又要交易另一巨星,不是哈登

      震驚:快船裁掉保羅之后,又要交易另一巨星,不是哈登

      姜大叔侃球
      2025-12-10 20:07:55
      全國最好的醫院排名,建議收藏!

      全國最好的醫院排名,建議收藏!

      霹靂炮
      2025-11-24 22:55:34
      2025-12-11 17:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11895文章數 142509關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      關鍵時刻 特朗普、馬克龍、斯塔默、默茨通話

      頭條要聞

      關鍵時刻 特朗普、馬克龍、斯塔默、默茨通話

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      阮經天小20歲的千金女友曝光

      財經要聞

      政府被“騙”,9500萬去哪了?

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      教育
      游戲
      手機
      親子
      公開課

      教育要聞

      緊急通知:四級考試時間臨時調整!

      倩女端游,你有億點接地府了

      手機要聞

      思特威推出5000萬像素手機圖像傳感器SC512HS,主打高性能與本土化供應

      親子要聞

      雙12消費觀察:袋鼠媽媽“科學分階”新范式,破解母嬰親子護理選擇難題

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91九色TS另类国产人妖| 妺妺窝人体色www看美女| 色综合久久久久综合体桃花网| 99精品成人| 一本色道久久99精品综合 | 清原| 国产成人AV久久久| 国产精品美女久久久久av福利 | 一个人看的www日本高清视频| 在线播放无码高潮的视频| 乱女伦露脸对白在线播放| 中文字幕人妻熟女人妻a片| 日韩,变态,另类,中文,人妻| 人人妻人人澡人人爽人人欧美一区| 中文国产不卡一区二区| 九九热视频在线免费观看| 99视频偷窥在线精品国自产拍| 人妻?无码?中出| 九九熟女| 国产亚洲合集| 日韩av一区二区三区不卡| 精品一区二区ww| 国产精品毛片无遮挡高清| 国产成人综合在线女婷五月99播放 | 一本色道久久加勒比综合| 66亚洲一卡2卡新区成片发布| 茄子视频国产在线观看| 欧美?日韩?人妻?高清?中文| 最新在线中文字幕| 欧洲码亚洲码的区别入口| 国产免费又黄又爽又色毛| 狠狠88综合久久久久综合网| 精品国产污污免费网站| 亚洲成a人片在线观看日本| 保德县| 九九精视频| 欧美成人www免费全部网站| 成人免费无码视频在线网站| 亚洲欧美成人精品香蕉网| 欧美、另类亚洲日本一区二区| 国精产品999国精产|