<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      7B擴散語言模型單樣例1000+ tokens/s!上交大聯合華為推出LoPA

      0
      分享至



      視頻 1:單樣例推理速度對比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA 平臺相同,配置對齊)

      在大語言模型(LLMs)領域,擴散大語言模型(dLLMs)因其并行預測特性,理論上具備超越傳統自回歸(AR)模型的推理速度潛力。然而在實踐中,受限于現有的解碼策略,dLLMs 的單步生成往往局限于 1-3 個 Token,難以真正釋放其并行潛力。

      近期,上海交通大學 DENG Lab 聯合華為的一項新研究打破了這一瓶頸。該工作提出了一種名為LoPA (Lookahead Parallel Decoding) 的無需訓練的解碼算法,通過主動探索最優填詞順序,顯著提升了 dLLMs 的推理并行度和吞吐量。

      本文作者團隊來自上海交通大學 DENG Lab 與華為。該研究由徐晨開、金義杰同學等人共同完成,指導教師為鄧志杰老師。DENG Lab 隸屬上海交通大學,致力于高效、跨模態生成模型的研究。



      • 論文地址:https://arxiv.org/abs/2512.16229
      • 代碼地址:https://github.com/zhijie-group/LoPA
      • 博客地址:https://zhijie-group.github.io/blogs/lopa

      實驗顯示,LoPA 將 D2F-Dream 在 GSM8K 基準上的單步生成 Token 數(TPF)從 3.1 提升至 10.1,并行度提升超 3 倍。配合團隊自研的 LoPA-Dist 分布式推理系統,在華為 Ascend 910C 平臺上實現了 1073.9 tokens/s 的單樣本吞吐量,不僅大幅超越基線模型,更將 dLLMs 的推理效率推向了新高度。



      圖 1:LoPA 的吞吐量結果展示。LoPA 將 D2F-Dream 的單樣本吞吐量在 MBPP 和 GSM8K 上分別提升至高達 1073.9 和 856.5 個 token/s,顯著優于基線方法。

      簡單來說,LoPA 為 dLLMs 賦予了以下核心特性:

      1.極高的并行度:首次將 dLLMs 的每步生成數量(TPF)提升至 10 Token 量級,突破了傳統方法的效率瓶頸。

      2.無需訓練:作為一種即插即用的解碼算法,無需對模型進行重訓或微調。

      3.前瞻并行解碼:通過引入分支并行機制,主動探索不同的填詞順序(TFO),避免模型陷入低置信度的局部最優。

      4.系統級加速:配套設計的 LoPA-Dist 系統,支持 CUDA 和 Ascend 雙平臺,通過分支并行最大化硬件利用率。



      圖 2:對不同分支數的 D2F-Dream 進行 LoPA 擴展性分析。結果表明,LoPA 能有效擴展 D2F 的 TPF,使其峰值超過 10,從而顯著減少解碼總步驟數。

      問題的根源:填詞順序限制并行潛力

      dLLMs 理論上支持全序列并行生成,但在實際應用中,現有的主流模型(如 Fast-dLLM, D2F, SDAR)普遍采用置信度驅動采樣(Confidence-Driven Sampling)。這種策略傾向于貪婪地優先填充當前置信度最高的位置。

      研究團隊發現,并行度的高低與填詞順序(Token Filling Order, TFO)高度相關。貪婪策略雖然在當前步驟保證了準確性,但并不考慮后續步驟的預測置信度,導致模型在后續迭代中并沒有充分釋放并行度。



      圖 3:LoPA 算法流程概覽。在每次迭代中,LoPA 通過獨立采樣高置信度位置,生成一個錨定分支以及多個前瞻分支。然后,分支置信度驗證機制并行評估所有分支,以選擇最優路徑。

      LoPA 的核心設計:前瞻并行與分支驗證

      為了解決上述問題,LoPA 引入了前瞻并行解碼機制。其核心思想是:利用少量的額外計算開銷,同時探索多種填詞順序,從而找到一條能讓未來預測 “更自信” 的路徑。

      LoPA 的工作流程包含三個關鍵階段:

      1. 多分支并行探索

      LoPA 在保留標準錨點分支(Anchor Branch,即常規貪婪策略)的同時,額外對當前的最高置信度的 k 個位置分別采樣得到 k 個前瞻分支(Lookahead Branches)。每個分支代表一種不同的填詞順序嘗試。

      2. 分支置信度驗證

      團隊設計了分支置信度(Branch Confidence)指標,用于量化分支中剩余未填位置的平均預測置信度。較高的分支置信度意味著該路徑在下一輪迭代中能填充更多的 Token,具備更高的并行潛力。

      3. 并行驗證與復用

      通過隔離不同分支的注意力設計,所有候選分支(錨點 + 前瞻)可以在一次前向傳遞中并行完成驗證。系統最終選擇未來潛力最大的分支作為本次迭代結果。驗證過程中計算的 Logits 被直接復用于下一步生成,無需額外前向傳播。



      圖 4:LoPA 分支并行分布式推理系統設計展示。關鍵區別在于針對不同后端定制的鍵值緩存管理協議:LoPA-Dist-NV 采用穩健的兩階段更新機制以確保一致性,而 LoPA-Dist-Ascend 則采用精簡的單階段更新策略以優化服務效率。

      系統級創新:LoPA-Dist 分布式推理

      為了承載 LoPA 的多分支計算,團隊設計了 LoPA-Dist 分布式推理系統,引入了全新的分支并行(Branch Parallelism, BP)策略,可與張量并行(Tensor Parallelism,TP)等現有并行機制混合使用。

      該系統針對不同硬件平臺進行了定制優化:

      1.LoPA-Dist-NV(CUDA):面向低延遲場景。采用靜態 KV Cache 和獨創兩階段更新協議(Pre-Write & Commit-Winner-Cache),確保分支切換時的緩存一致性。

      2.LoPA-Dist-Ascend(Ascend 910C):面向高吞吐服務場景。采用混合并行策略(TP+BP),結合圖編譯技術融合算子,異步調度,以及量化機制,大幅降低 Kernel 啟動開銷。



      圖 5:LoPA 的并行度擴展曲線。在 GSM8K 和 HumanEval+ 上,LoPA 分別將 D2F-Dream 和 D2F-DiffuCoder 的 TPF 分別擴展至高達 10.1 和 8.3,并保持和基線相當的性能。

      實驗結果:速度與質量的雙重提升

      并行度:單步突破 10 Token

      LoPA 在 SOTA 擴散語言模型 D2F 上進行了實驗。實驗結果表明,隨著前瞻分支數量的增加,模型的 TPF 呈現顯著上升趨勢。在 GSM8K 任務上,LoPA 將 D2F-Dream 的 TPF 推高至 10.1,大幅縮短了總推理步數。



      表 1:LoPA 集成 D2F-Dream 的性能。LoPA 集成的 D2F-Dream 在多個基準測試中實現了保持精度的 TPF 提升。



      表 2:LoPA 集成 D2F-Diffucoder 的性能。LoPA 集成的 D2F-DiffuCoder 在代碼任務中實現了保持精度的 TPF 提升。

      系統吞吐量

      在系統層面,LoPA-Dist 展現了優異的擴展能力。在華為 Ascend 910C 平臺上,系統實現了 1073.86 tokens/s 的峰值吞吐量。



      表 3:LoPA 系統性能。結果表明,我們的系統能夠有效地將算法并行性(高 TPF)轉化為顯著的實際運行時間加速,在專用的 LoPA-Dist-Ascend 引擎上實現了超過 1000 token/s 的平均吞吐量。

      總結與展望

      LoPA 通過算法與系統的協同設計,成功突破了 dLLM 推理的并行度瓶頸,證明了非自回歸模型在保持高性能的同時,能夠實現遠超傳統模型的推理速度。團隊表示,未來將進一步探索 LoPA 在 SDAR 等更多 dLLM 架構上的應用,推動高效生成模型的落地。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      留下櫻桃告別禮,塞梅尼奧何時收獲曼城新年禮?

      留下櫻桃告別禮,塞梅尼奧何時收獲曼城新年禮?

      體壇周報
      2025-12-31 19:42:15
      騷操作!門將位置走馬換將,上海申花做了一個非常不明智的決定

      騷操作!門將位置走馬換將,上海申花做了一個非常不明智的決定

      零度眼看球
      2025-12-31 08:52:09
      11連勝終結!1-4讓54歲埃梅里破防 拒握手+暴怒離場 塔帥一臉錯愕

      11連勝終結!1-4讓54歲埃梅里破防 拒握手+暴怒離場 塔帥一臉錯愕

      我愛英超
      2025-12-31 07:10:59
      震撼全場!蔡依林踩蛇出場炸翻舞臺,網友:蛇都得喊一聲姐大

      震撼全場!蔡依林踩蛇出場炸翻舞臺,網友:蛇都得喊一聲姐大

      阿廢冷眼觀察所
      2025-12-31 12:48:38
      中原第一“教父”覆滅記:壟斷鄭州人衣食住行10年,手下200亡命徒,死刑前連家人都不敢看

      中原第一“教父”覆滅記:壟斷鄭州人衣食住行10年,手下200亡命徒,死刑前連家人都不敢看

      歷史回憶室
      2025-12-30 13:07:14
      雷軍投的芯片公司要IPO了!華為OPPO均持股,擬募資8億

      雷軍投的芯片公司要IPO了!華為OPPO均持股,擬募資8億

      芯東西
      2025-12-31 19:09:56
      火箭對陣籃網前瞻 面對戰績墊底的球隊 火箭還會在陰溝里翻船嗎

      火箭對陣籃網前瞻 面對戰績墊底的球隊 火箭還會在陰溝里翻船嗎

      大話火箭隊
      2025-12-31 20:13:49
      為什么飛機要把油裝在薄薄的機翼里?一次超百噸重,不怕壓斷嗎?

      為什么飛機要把油裝在薄薄的機翼里?一次超百噸重,不怕壓斷嗎?

      半解智士
      2025-12-30 22:13:24
      香港紅毯太尷尬,白百何“裝傻”被吐槽,宣萱臉部凹凸不平嘴巴大

      香港紅毯太尷尬,白百何“裝傻”被吐槽,宣萱臉部凹凸不平嘴巴大

      琴聲飛揚
      2025-12-31 09:42:16
      馬筱梅深夜談倆孩子現狀,一句話給足S家體面,胎兒性別太明顯

      馬筱梅深夜談倆孩子現狀,一句話給足S家體面,胎兒性別太明顯

      卷史
      2025-12-31 14:47:32
      災難級表現!紐卡世界級球星全場夢游 名宿怒批:毫無斗志

      災難級表現!紐卡世界級球星全場夢游 名宿怒批:毫無斗志

      瀾歸序
      2025-12-31 08:13:09
      馬云預言兌現?2026年手上還握有存款的人,別忽視這三大現實

      馬云預言兌現?2026年手上還握有存款的人,別忽視這三大現實

      來科點譜
      2025-12-29 09:01:09
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      故事:女局長微服出巡卻被地頭蛇霸王硬上弓,知道身份后他嚇破膽

      故事:女局長微服出巡卻被地頭蛇霸王硬上弓,知道身份后他嚇破膽

      紅豆講堂
      2024-10-31 13:15:03
      辛選員工集體跑路,辛巴在崩潰邊緣

      辛選員工集體跑路,辛巴在崩潰邊緣

      電商派Pro
      2025-12-18 10:05:26
      99年,山東一男子預感鋼材要大漲,在2千一噸時砸下重金囤了500噸

      99年,山東一男子預感鋼材要大漲,在2千一噸時砸下重金囤了500噸

      卡西莫多的故事
      2025-12-31 10:08:32
      全球最佳經濟艙排行榜:中國內地航司“全軍覆沒”

      全球最佳經濟艙排行榜:中國內地航司“全軍覆沒”

      環球旅訊
      2025-12-31 15:35:19
      2010年,劉強東給身價400億的張磊連打7個電話借錢7500萬美元

      2010年,劉強東給身價400億的張磊連打7個電話借錢7500萬美元

      忠于法紀
      2025-12-31 09:12:00
      天然氣對華毀約,加入歐美稀土戰略,哈薩克斯坦這路誰教他走的?

      天然氣對華毀約,加入歐美稀土戰略,哈薩克斯坦這路誰教他走的?

      策略述
      2025-12-27 17:20:34
      全球難度最高的直升機:美國獨霸技術60年,神話終于被中國打破

      全球難度最高的直升機:美國獨霸技術60年,神話終于被中國打破

      古史青云啊
      2025-12-31 19:26:50
      2025-12-31 20:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12031文章數 142525關注度
      往期回顧 全部

      科技要聞

      老羅,演砸了,也封神了?

      頭條要聞

      38歲女主持人被"老頭樂"撞倒離世 肇事人酒駕已被控制

      頭條要聞

      38歲女主持人被"老頭樂"撞倒離世 肇事人酒駕已被控制

      體育要聞

      快船大勝國王解鎖5連勝 小卡33+5+5

      娛樂要聞

      官宣才兩天就翻車?七七被連環爆料

      財經要聞

      高培勇:分配制度改革是提振消費的抓手

      汽車要聞

      凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

      態度原創

      健康
      親子
      房產
      手機
      公開課

      元旦舉家出行,注意防流感

      親子要聞

      章子怡為10歲女兒慶生!醒醒顏值漂亮逆襲,可令人擔心的事發生了

      房產要聞

      終于等來了!2026年首個買房大利好

      手機要聞

      vivo X300 Ultra獲認證:藍廠最強影像旗艦蓄勢待發

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久99视频| 成人黄色国产| 国产九九视频在线播放| 亚洲熟妇国产熟妇肥婆| 精品人妻码一区二区三区| 狠狠色噜噜狠狠狠狠2021| 老外AV| 嘉善县| 高清国产精品人妻一区二区| 国产成人免费一区二区三区| 色综合久久中文综合久久激情| 人妻综合网| 亚洲精品色欲| 久久超碰97人人做人人爱| 中文字幕亚洲乱码熟女在线萌芽| 中文字幕乱妇无码AV在线| 一本色道久久综合无码人妻| 国产色网站| 亚洲精品欧美综合二区| 国产成人精品97| 6080啪啪| 亚洲一区人妻| 国产av无码国产av毛片 | 人人做人人澡人人人爽| 91免费视频网| 亚洲综合另类| 夜夜欢天天干| 亚洲av午夜福利精品一区二区| 白人无码| 亚洲一人综合| 国产又粗又猛又爽又黄的视频在线观看动漫 | 崇州市| 人妻互换一二三区激情视频| 一区二区三区av天堂| 国产精品?制服丝袜?中文字幕| 阿城市| 日韩av第一页在线播放| 国产欧美另类久久久精品丝瓜| 69xxx国产| 一本色道久久综合亚洲精品按摩| 国产狂喷潮在线观看|