<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      微信煉出擴(kuò)散語言模型,vLLM部署AR模型3倍加速,低熵場景超10倍

      0
      分享至



      騰訊微信 AI 團(tuán)隊提出 WeDLM(WeChat Diffusion Language Model),通過在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)擴(kuò)散式解碼,在數(shù)學(xué)推理等任務(wù)上實(shí)現(xiàn)相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵場景更可達(dá) 10 倍以上,同時保持甚至提升生成質(zhì)量。

      引言

      自回歸(AR)生成是當(dāng)前大語言模型的主流解碼范式,但其逐 token 生成的特性限制了推理效率。擴(kuò)散語言模型(Diffusion LLMs)通過并行恢復(fù)多個 mask token 提供了一種替代方案,然而在實(shí)踐中,現(xiàn)有擴(kuò)散模型往往難以在推理速度上超越經(jīng)過高度優(yōu)化的 AR 推理引擎(如 vLLM)。

      問題的關(guān)鍵在于:大多數(shù)擴(kuò)散語言模型采用雙向注意力機(jī)制,這與標(biāo)準(zhǔn)的 KV 緩存機(jī)制不兼容,導(dǎo)致并行預(yù)測的優(yōu)勢無法轉(zhuǎn)化為實(shí)際的速度提升。

      近日,騰訊微信 AI 團(tuán)隊提出了WeDLM(WeChat Diffusion Language Model),這是首個在工業(yè)級推理引擎(vLLM)優(yōu)化條件下,推理速度超越同等 AR 模型的擴(kuò)散語言模型。



      • 論文標(biāo)題:WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
      • 論文作者:劉璦瑋、何明樺、曾少勛、張思鈞、張林昊、武楚涵、賈巍、劉源、周霄、周杰(騰訊微信 AI)
      • 項目主頁:https://wedlm.github.io
      • GitHub:https://github.com/tencent/WeDLM
      • 模型權(quán)重:https://huggingface.co/collections/tencent/wedlm

      以下是模型效果:



      上圖展示了vLLM 部署的 Qwen3-8B-Instruct(左) 與 WeDLM-8B-Instruct(右) 在相同 prompt 下的實(shí)時生成對比。可以直觀看到,WeDLM 的生成速度明顯更快。

      核心思路:讓擴(kuò)散解碼兼容 KV 緩存

      WeDLM 的核心洞察是:mask 恢復(fù)并不需要雙向注意力。擴(kuò)散式解碼只需要讓每個 mask 位置能夠訪問所有已觀測的 token,這完全可以在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn)。

      研究團(tuán)隊提出了一個關(guān)鍵指標(biāo) ——前綴可緩存性(Prefix Cacheability):在 KV 緩存解碼中,只有形成連續(xù)左到右前綴的 token 才能被緩存復(fù)用。因此,真正影響推理效率的不是「每步預(yù)測多少 token」,而是「有多少預(yù)測能夠轉(zhuǎn)化為可緩存的前綴」。



      圖:WeDLM-8B 在數(shù)學(xué)推理任務(wù)上實(shí)現(xiàn)約 3 倍加速,同時在準(zhǔn)確率和推理速度上顯著超越 LLaDA、Dream 等擴(kuò)散模型。

      技術(shù)方案

      拓?fù)渲嘏判颍═opological Reordering)

      WeDLM 通過拓?fù)渲嘏判蛟诒3忠蚬⒁饬Φ耐瑫r,讓 mask 位置能夠訪問完整的觀測上下文。具體而言,將所有已觀測 token 移動到物理序列的前端,同時通過 RoPE 位置編碼保留其邏輯位置。這樣,在標(biāo)準(zhǔn)因果 mask 下,每個待預(yù)測位置都能看到所有已知信息。



      雙流掩碼(Dual-Stream Masking)

      為縮小訓(xùn)練與推理的分布差異,WeDLM 設(shè)計了雙流訓(xùn)練策略:構(gòu)建一個干凈的「記憶流」和一個帶 mask 的「預(yù)測流」,兩者共享位置編碼。預(yù)測流中的每個 block 從記憶流獲取干凈的歷史上下文,而非可能帶噪的中間預(yù)測結(jié)果。

      流式并行解碼(Streaming Parallel Decoding)

      推理階段,WeDLM 采用流式并行解碼策略:

      • 距離懲罰機(jī)制:優(yōu)先解碼靠左的位置,促進(jìn)左到右的前綴增長
      • 即時緩存:在因果注意力下,已解碼 token 立即成為有效緩存
      • 動態(tài)滑動窗口:持續(xù)填充新的 mask 位置,避免 block 邊界的等待開銷



      圖:傳統(tǒng) block 解碼需要等待整個 block 完成才能提交,而 WeDLM 的流式解碼可以即時提交已解析的前綴。

      實(shí)驗結(jié)果

      生成質(zhì)量

      WeDLM 基于 Qwen2.5-7B 和 Qwen3-8B 進(jìn)行訓(xùn)練,使用 100B token 進(jìn)行繼續(xù)預(yù)訓(xùn)練,10B token 進(jìn)行 SFT。



      在 base 模型評測中,WeDLM-8B 平均得分 74.72,超越 Qwen3-8B(72.61)2.1 個點(diǎn)。在數(shù)學(xué)推理任務(wù)上提升尤為顯著:GSM8K 提升 4.2 個點(diǎn),MATH 提升 2.8 個點(diǎn)。



      在 instruct 模型評測中,WeDLM-8B-Instruct 平均得分 77.53,超越 Qwen3-8B-Instruct(75.12)2.4 個點(diǎn),也領(lǐng)先于 SDAR-8B-Instruct(74.22)等擴(kuò)散模型。

      推理速度

      關(guān)鍵亮點(diǎn):所有速度對比均基于 vLLM 部署的 AR 模型基線,而非未優(yōu)化的實(shí)現(xiàn)。



      研究團(tuán)隊在論文中展示了不同熵值場景下的速度差異:

      • 低熵場景(如計數(shù)任務(wù)):由于輸出高度可預(yù)測,模型可以大膽并行預(yù)測并接受多個 token,實(shí)測達(dá)到 1673.3 tokens/s
      • 中熵場景(如數(shù)學(xué)推導(dǎo)):結(jié)構(gòu)化的推理步驟仍然具有較好的可預(yù)測性,實(shí)測 745.2 tokens/s
      • 高熵場景(如開放問答):語義多樣性高,并行接受率下降,實(shí)測 197.8 tokens/s

      快速上手

      安裝方式非常簡單,只需通過 pip 從 GitHub 安裝即可。安裝完成后,可使用 Python API 快速調(diào)用模型進(jìn)行推理。詳細(xì)的使用文檔和示例代碼請參見項目 GitHub 主頁。

      總結(jié)

      WeDLM 的貢獻(xiàn)可以歸納為:

      • 因果擴(kuò)散框架:在標(biāo)準(zhǔn)因果注意力下實(shí)現(xiàn) mask 恢復(fù),天然兼容 KV 緩存和現(xiàn)有推理基礎(chǔ)設(shè)施(FlashAttention、PagedAttention、CUDA Graphs 等)
      • 流式并行解碼:通過距離懲罰和動態(tài)滑動窗口,最大化前綴提交率
      • 首次在速度上超越工業(yè)級推理引擎部署的 AR 模型:在 vLLM 優(yōu)化條件下的公平對比中,數(shù)學(xué)推理實(shí)現(xiàn) 3 倍以上加速,低熵場景超過 10 倍

      研究團(tuán)隊指出,這項工作表明「前綴可緩存性」應(yīng)當(dāng)作為并行文本生成的一等設(shè)計目標(biāo)。未來的擴(kuò)散語言模型應(yīng)更多地被視為高效的多 token 預(yù)測機(jī)制 —— 并行生成 token 的價值,取決于這些 token 能多快地轉(zhuǎn)化為可緩存的前綴。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中方:沉痛哀悼丹羽宇一郎

      中方:沉痛哀悼丹羽宇一郎

      新京報政事兒
      2026-01-09 15:31:25
      樸槿惠出獄生活:住別墅,與小10歲律師為伴,如今生活安逸

      樸槿惠出獄生活:住別墅,與小10歲律師為伴,如今生活安逸

      策略述
      2026-01-09 13:02:41
      稀土不走中國口岸,哈薩克斯坦把里海通道第一次寫進(jìn)合同

      稀土不走中國口岸,哈薩克斯坦把里海通道第一次寫進(jìn)合同

      扶蘇聊歷史
      2026-01-08 16:42:43
      52票贊成,47票反對,美參議院推進(jìn)決議限制特朗普對委動武,多名共和黨議員“反水”!特朗普怒斥:削弱總統(tǒng)權(quán)力!委內(nèi)瑞拉:不屈服

      52票贊成,47票反對,美參議院推進(jìn)決議限制特朗普對委動武,多名共和黨議員“反水”!特朗普怒斥:削弱總統(tǒng)權(quán)力!委內(nèi)瑞拉:不屈服

      每日經(jīng)濟(jì)新聞
      2026-01-09 13:25:05
      1萬分里程碑創(chuàng)六紀(jì)錄!華子賽后致敬科比 近9戰(zhàn)場均31分升西部第4

      1萬分里程碑創(chuàng)六紀(jì)錄!華子賽后致敬科比 近9戰(zhàn)場均31分升西部第4

      顏小白的籃球夢
      2026-01-09 15:16:34
      白宮“購島”方案流出:向格陵蘭人一次性付款,以說服他們脫離丹麥并可能加入美國,每人或得1萬-10萬美元

      白宮“購島”方案流出:向格陵蘭人一次性付款,以說服他們脫離丹麥并可能加入美國,每人或得1萬-10萬美元

      都市快報橙柿互動
      2026-01-09 08:14:32
      官方通報深夜播發(fā)5分鐘廣播節(jié)目:對3名相關(guān)責(zé)任人停職檢查

      官方通報深夜播發(fā)5分鐘廣播節(jié)目:對3名相關(guān)責(zé)任人停職檢查

      界面新聞
      2026-01-09 15:39:39
      終結(jié)隊史最長13連敗!卡萊爾1000勝步行者險勝黃蜂 三球33+8

      終結(jié)隊史最長13連敗!卡萊爾1000勝步行者險勝黃蜂 三球33+8

      醉臥浮生
      2026-01-09 10:35:57
      蘋果正式官宣:1月9日,全面官降!

      蘋果正式官宣:1月9日,全面官降!

      科技堡壘
      2026-01-09 11:45:41
      中國猛捶日本,第一波反制剛到,第二波進(jìn)入倒計時:191國靠邊站

      中國猛捶日本,第一波反制剛到,第二波進(jìn)入倒計時:191國靠邊站

      近史博覽
      2026-01-09 14:53:29
      太行山采藥人發(fā)現(xiàn)1943年跳崖八路軍遺骸,腰帶里縫著黨員證

      太行山采藥人發(fā)現(xiàn)1943年跳崖八路軍遺骸,腰帶里縫著黨員證

      鶴羽說個事
      2026-01-08 11:02:25
      86歲李雙江近況傳出!真的不敢相信,他如今活成了這樣!

      86歲李雙江近況傳出!真的不敢相信,他如今活成了這樣!

      誰將笑到最后
      2026-01-08 09:29:51
      37分鐘創(chuàng)新高!林葳10分第二次上雙 5助攻全場最多+三分10中1

      37分鐘創(chuàng)新高!林葳10分第二次上雙 5助攻全場最多+三分10中1

      醉臥浮生
      2026-01-09 13:44:41
      購洗碗機(jī)遭丈夫砸家后續(xù):女子回應(yīng)披露更多細(xì)節(jié),家當(dāng)下仍有外債

      購洗碗機(jī)遭丈夫砸家后續(xù):女子回應(yīng)披露更多細(xì)節(jié),家當(dāng)下仍有外債

      天天熱點(diǎn)見聞
      2026-01-09 08:34:00
      大潰敗!中國網(wǎng)貸公司,在印度全軍覆沒

      大潰敗!中國網(wǎng)貸公司,在印度全軍覆沒

      首席品牌評論
      2026-01-07 18:20:00
      天安門原升旗手張自軒結(jié)婚,岳父豪送奧迪A6,新娘身份不一般

      天安門原升旗手張自軒結(jié)婚,岳父豪送奧迪A6,新娘身份不一般

      八斗小先生
      2026-01-08 18:19:01
      江西景德鎮(zhèn)一家三口被撞身亡案宣判,法院答疑

      江西景德鎮(zhèn)一家三口被撞身亡案宣判,法院答疑

      界面新聞
      2026-01-09 09:20:58
      回顧許家印被抓捕現(xiàn)場,奮力反抗,怒吼不已,被抓捕人員抬出去

      回顧許家印被抓捕現(xiàn)場,奮力反抗,怒吼不已,被抓捕人員抬出去

      干史人
      2026-01-08 22:47:00
      看到委內(nèi)瑞拉的情況,李顯龍在怕什么?

      看到委內(nèi)瑞拉的情況,李顯龍在怕什么?

      新民周刊
      2026-01-09 09:09:48
      Costco落戶廣州,對決山姆!

      Costco落戶廣州,對決山姆!

      中國零售信息
      2026-01-08 23:27:03
      2026-01-09 16:19:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12088文章數(shù) 142532關(guān)注度
      往期回顧 全部

      科技要聞

      市場偏愛MiniMax:開盤漲42%,市值超700億

      頭條要聞

      "老板"拉群開口就要150萬 女財務(wù)付100萬后感覺天塌了

      頭條要聞

      "老板"拉群開口就要150萬 女財務(wù)付100萬后感覺天塌了

      體育要聞

      金元時代最后的外援,來中國8年了

      娛樂要聞

      檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

      財經(jīng)要聞

      郁亮的萬科35年:從"寶萬之爭"到"活下去"

      汽車要聞

      英偉達(dá)的野心:做一套自動駕駛的“安卓系統(tǒng)”

      態(tài)度原創(chuàng)

      游戲
      時尚
      家居
      數(shù)碼
      旅游

      馬丁構(gòu)想大變樣?宮崎英高稱其或驚訝于《艾爾登法環(huán)》

      新年燙頭不想顯老10歲?看這篇就夠了

      家居要聞

      木色留白 演繹現(xiàn)代自由

      數(shù)碼要聞

      避免老設(shè)備“變磚”,Bose開源SoundTouch智能音箱API

      旅游要聞

      “冷資源”迸發(fā)“熱動能” 冰雪季成為經(jīng)濟(jì)增長“黃金季”

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久精品一区二区免费播放| 亚洲中文字幕无码久久精品1| 蜜臀久久精精品久久久久久噜噜| 亚洲日本视频一区二区三区| 精品人体无码一区二区三区| 兴和县| 少妇特殊按摩高潮惨叫无码| 黄色V国产| 久久精品一区二区三区蜜桃| 激情伊人五月天久久综合| 亚洲第一色视频| 国产成人a在线观看网站站| 苏尼特左旗| 免费无码av片在线观看中文| 亚洲精品免费视频| 正在播放东北夫妻内射| 影音先锋在线视频| 九色人妻在线| 亚洲中文无码手机永久| 91产精品无码无套在线| 亚洲色大成网站WWW永久麻豆| 亚洲色成人网站www永久| 果冻传媒一区| 1024国产视频| 丰满熟妇人妻中文字幕| 麻豆色漫| 一本色道久久综合精品婷婷| 国产av一区二区三区| 免费无码一区无码东京热| 亚洲AV无码东方伊甸园| 久久精品成人免费观看| 亚洲av网站| 国产女主播免费在线观看| 日本最新免费二区三区| 国产成人精品18p| 亚洲国产av无码综合原创国产| 吉隆县| 久久99亚洲网美利坚合众国| 亚洲v在线| 国产偷倩视频| 国产成人精品777777|