<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LangFlow: 挑戰離散擴散,探索下一代語言模型新范式

      0
      分享至



      主要作者團隊:Yuxin Chen 現為伊利諾伊大學厄巴納 - 香檳分校(UIUC)碩士一年級學生,Chumeng Liang 為 UIUC 博士一年級學生,Hangke Sui 為 UIUC 博士二年級學生,Ge Liu 為 UIUC 計算機系助理教授。Liu Lab 團隊長期聚焦擴散 / 流模型方向,已產出 Riemannian Consistency Model (RCM), Statistical Flow Matching, 及本文 LangFlow 等多項代表性研究成果。



      • 論文標題:LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
      • 論文鏈接:https://arxiv.org/abs/2604.11748
      • github:https://github.com/nealchen2003/LangFlow
      • huggingface:https://huggingface.co/papers/2604.11748

      “在圖像視頻領域統治的連續擴散模型,為何在文本上遲遲無法突破壁壘,甚至被迫走向‘模仿自回歸’的妥協之路?”

      當前擴散語言模型(DLM)深陷 “越像 AR 性能越好” 的怪圈。為逼近 AR,主流研究轉向離散擴散,卻陷入并行解碼困境,逐漸喪失了低延遲與多模態等原生潛力。

      面對路線分歧,UIUC Ge Liu 團隊發布新作《LangFlow: Continuous Flow Matching for Large Language Models》,徹底回歸最傳統的連續擴散架構。研究指出,連續擴散在文本上的受挫并非先天缺陷,而是受限于訓練與評估策略。經過系統性優化,LangFlow 首次讓連續擴散在標準基準上追平離散擴散。

      這項工作不僅打破了文本生成的離散壁壘,更證明了保留 Diffusion 原生特性的連續架構 “同樣能打”,為探索低延遲、高可控的多模態統一架構,重新打通了一條被長期忽視的底層路線。

      語言模型的發展方向

      當今大語言模型(不論是 ChatGPT 還是 DeepSeek)的基礎是自回歸(Autoregressive, AR)架構,也就是常說的 “預測下個詞元”。雖然 AR 架構已經取得了巨大的成功,但有幾個本質性的天花板難以突破:

      1)推理延遲。 AR 架構每次推理只預測下一個詞元,這意味著:

      推理延遲 = 推理步數 × 單步延遲 = 輸出詞元數 × 單步延遲.

      對于 AR 模型來說,單步延遲主要受限于從顯存中讀取之前的內容(KV 緩存)。所以,每讀一次 KV 緩存只計算一個新詞元是很浪費的。

      2)可控性。 AR 架構主要兼容使用提示詞的控制方式。提示詞與其它信息處于同等地位,因此 AR 受制于指令失效的問題。

      3)模態局限性。 AR 架構主要用于預測離散模態,生成圖像、視頻、空間位置、機器人動作等連續模態則需要搭載擴散生成頭,不利于架構統一。

      擴散語言模型簡史

      近年來,主流思想認為,擴散語言模型越像自回歸,表現就越好。而最經典的連續擴散,一般認為存在先天劣勢;但這一偏見正在逐漸被打破



      隨著 Stable Diffusion 等先進生成模型的發布,Diffusion 在圖像和視頻生成中確立了統治地位。2022-2023 年,大家自然想把它遷到文本上,以期解決以上三個問題:

      1)低延遲。 Diffusion 可以蒸餾成一步生成模型(如 Consistency Model),讀一次 KV 緩存同時輸出多個詞元,大幅降低推理延遲。

      2)高可控。 Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技術,可以強化指令跟隨的質量。

      3)多模態。 Diffusion 已經是連續模態的主流范式,若將離散模態連續化,則可以統一架構,同時不會損失任何信息,反之則不然。

      盡管上述愿景富有吸引力,但早期的實驗結果并不理想,且隨著模型規模的擴大,性能差距愈發明顯。例如,參數量擴展至 1B 的連續擴散模型 Plaid,其性能僅與 100M 參數的 AR Transformer 相當。而 Diffusion-LM 等模型甚至難以在無條件情況下生成通順句子。

      傳統擴散模型在語言任務上的局限性,促使研究社區轉向一種 “離散 Diffusion”,也就是從初態(全 [MASK] 或者詞表中均勻隨機)出發,每步以一個小概率替換部分詞元。2024 年,離散 Diffusion 取得了顯著進展,尤其是初始為全 [MASK] 態的 Masked Diffusion 家族最為突出,把與 AR 的 PPL 差距縮到 10 以內。近期的里程碑是 Block Diffusion,它把數據每 4–32 個 token 分一塊,塊內是 MDLM,塊間是 AR,PPL 只比 AR 差 3 左右。

      截至 2025 年中,DLM 的演進路線是很明確的:

      (連續)Diffusion → 離散 Diffusion → Masked Diffusion → Block Diffusion

      趨勢十分清晰:Diffusion 越像 AR,性能就越接近 AR。這逐漸成為工業界的共識:在擴展 DLM 規模時,工業界普遍采用 Block Diffusion,平均每次推理能預測接下來 32 個詞元中的 4 個。這其實與 DeepSeek-V3 的多詞元預測(multi-token prediction)技術不謀而合。

      然而,Masked Diffusion 在逼近 AR 性能的同時,也弱化了 Diffusion 的特色,犧牲了以上三個核心潛力中的兩個:推理延遲與多模態能力。

      (連續)Diffusion 之所以能蒸餾為一步,是因為其概率流 ODE 形式下(注:DDIM 的連續時間版本,每步不注入噪聲,等價于一般意義下的 Flow Matching),每個隨機初態確定性地對應一個終點。然而,Masked Diffusion 初始為單一的全 [MASK] 態,通過逐步注入隨機性,才能生成多種不同的結果;如果一步同時解碼多個 token,其間的對應關系是捕捉不到的。因此,Masked Diffusion 深陷并行解碼困境(parallel decoding dilemma),也就是隨著生成步數的減少,多種可能的目標句交叉混疊,質量不可避免地走向崩潰,如下圖:



      Masked Diffusion 的得失引出一個核心問題:如果 Diffusion 必須依賴模仿 AR 才能提升性能,其作為獨立語言模型架構的獨特價值便有待商榷了。

      連續擴散模型的回歸

      2025 年,前沿研究開始重新審視這一路線,嘗試回歸多初始態架構,以保留 Diffusion 的核心特性。代表作 Duo 改進了基于均勻隨機噪聲的離散 Diffusion,雖然在 OpenWebText 上未能超過 Masked Diffusion,但在少步蒸餾后仍保持生成質量,并采用專為離散 Diffusion 設計的引導機制。近期研究甚至表明,在 GSM8K(數學基準)的擴大規模測試中,Duo 擊敗了 Masked Diffusion 和 AR。這表明模仿 AR 并非提升擴散模型性能的唯一路徑。

      在最新工作 LangFlow 中,研究團隊比 Duo 更徹底地回歸 —— 直接回到最傳統的 Diffusion。該研究證明:早期連續 DLM 的表現不佳并非源于架構的先天缺陷,而是受限于訓練策略與評估方法。經優化后,同樣在 GPT-2-small 規模下,連續 Diffusion 追平了離散 Diffusion,甚至可與 AR 相當。具體來說,該團隊發布的模型 LangFlow,在 7 個零樣本遷移測試中,有 3 個超過 AR。

      下文說明具體做法。

      更有效的訓練:

      刻畫連續擴散的信息熵

      Embedding 空間上的 Diffusion

      研究團隊采用了embedding 空間上的 diffusion 框架。模型輸入帶噪的 embedding,預測干凈 token 的概率分布,然后以封閉形式算出 diffusion 的去噪目標。

















      噪聲的 Schedule

      優化噪聲 schedule 是提升 DLM 性能的關鍵。與圖像不同的是,研究團隊發現:DLM 必須偏重極高噪聲區,才能學得有效信息。

      1、標準噪聲 Scheduler 的局限











      2、讓 Schedule 匹配信息增量











      3、信息量服從 Gumbel 分布









      更精準的測試:還原連續擴散的實力

      關鍵指標解釋

      根據以往的 DLM 工作,該研究沿用以下兩項指標(都是越低越好):





      Self-Conditioning

      研究團隊通過對比實驗指出:關閉 Self-Conditioning 的對比對連續 DLM 是不公平的。







      ODE 生成的 PPL 估計

      研究團隊還注意到:之前的工作的變分上界不適用于 LangFlow 所用的 ODE 生成。

      準確的 PPL 度量是公平比較的前提。AR 逐詞元計算似然;離散擴散用變分推導一個上界。在本研究中,團隊為 LangFlow 的 ODE 生成路徑推導了一個更適配的 NLL 上界,按序列長度平均并取指數后即為 PPL:



      這個上界由三部分構成:第一項是從噪聲中抽取軌跡起點的 NLL;第二項是 ODE 對概率密度的壓縮或膨脹;第三項是從軌跡終點還原 token 的 NLL。最后的一項,是以上三項中的常數項相互抵消剩下的總和。

      這個界完全適配 LangFlow 的 ODE 生成,為連續 DLM 的 PPL 評估提供了更可靠的理論基礎。

      多項基準全面追平:

      語言建模與零樣本遷移均進入第一梯隊

      連續擴散在 LM1B 和 OWT 的 PPL/Gen. PPL 上整體匹敵離散擴散,并取得擴散模型中最強的零樣本遷移表現。

      研究團隊在 LM1B(句子級)和 OpenWebText(OWT,類似 GPT-2 語料)上評估 LangFlow。模型都是 130M 參數的雙向 DiT,訓練 1M 步。

      語言建模





      在 LM1B 上,LangFlow 生成 PPL 達 91.8,優于最強離散 DLM(Duo 97.6)6 分以上。測試集 PPL(31.7)超過所有均勻隨機噪聲的離散 DLM,與 Masked Diffusion 的 SOTA MDLM(31.0)持平。在 OWT 上,LangFlow(24.3)與 MDLM(23.2)差距僅在 1 左右。這是連續 DLM 首次在標準語言建模基準上追平離散 DLM。

      零樣本遷移

      在 7 個 零樣本遷移測試中,LangFlow 在 3 個上超過 AR 基線,在 4 個上超過 MDLM。尤其在 Pubmed 和 Arxiv(充滿結構化、專業術語)上,LangFlow 相對 AR 優勢顯著(36.45 vs 49.01,32.84 vs 41.73)。LangFlow 不僅放大了離散擴散對 AR 的相對優勢,還在其弱勢項目上補齊了短板。

      總結:走向多架構協同的下一代語言模型

      LangFlow 證明了連續 DLM 完全具備在標準基準上打平離散 DLM 的基礎能力。然而,Diffusion 的長期價值并不在于與 AR 進行零和博弈,而在于作為 AR 架構的關鍵補充。在低延遲解碼、細粒度指令控制以及原生多模態融合等 AR 存在固有局限的領域,連續 Diffusion 展現出了不可替代的天然優勢。

      未來的語言模型發展趨勢正指向多種架構優勢互補的組合,而非單一范式的壟斷。與其將 Diffusion 強行 “改造” 成 AR 的離散生成模式,不如徹底釋放其連續架構的原生潛力。

      LangFlow 完整保留了擴散模型的核心特性,不僅為連續 DLM 的后續擴展提供了堅實的基線,更為構建下一代低延遲、高可控、多模態共生的 AI 基礎設施確立了重要的底層路線。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      轟的一聲!國防部長被炸身亡,俄外交雪上加霜,普京沉默了

      轟的一聲!國防部長被炸身亡,俄外交雪上加霜,普京沉默了

      音樂時光的娛樂
      2026-04-28 12:03:52
      曾經對程序員最好的公司,倒下了

      曾經對程序員最好的公司,倒下了

      純潔的微笑
      2026-04-28 12:18:28
      回顧陜西男子3次報警,民警拒不派警,致兩家四口被殺,法院判了

      回顧陜西男子3次報警,民警拒不派警,致兩家四口被殺,法院判了

      談史論天地
      2026-04-25 13:10:12
      阿聯酋宣布退出歐佩克,背后原因有哪些?將產生哪些影響?

      阿聯酋宣布退出歐佩克,背后原因有哪些?將產生哪些影響?

      聞號說經濟
      2026-04-28 21:27:29
      中央政治局會議定調樓市,釋放新信號

      中央政治局會議定調樓市,釋放新信號

      21世紀經濟報道
      2026-04-28 18:41:29
      恩里克:打進第四、第五球后我無法保持冷靜;不喜歡丟四個球

      恩里克:打進第四、第五球后我無法保持冷靜;不喜歡丟四個球

      懂球帝
      2026-04-29 06:19:05
      臺灣政壇徹底炸鍋!

      臺灣政壇徹底炸鍋!

      安安說
      2026-04-28 10:56:05
      云南少年殺害女同學一審被判無期,被害人母親留著女兒房間原狀,村子外出務工的人變少

      云南少年殺害女同學一審被判無期,被害人母親留著女兒房間原狀,村子外出務工的人變少

      瀟湘晨報
      2026-04-28 16:46:31
      李嘉欣美貌不再,和許晉亨一同看演唱會,近照疑醫美過度缺點盡顯

      李嘉欣美貌不再,和許晉亨一同看演唱會,近照疑醫美過度缺點盡顯

      娛樂團長
      2026-04-27 20:27:36
      休媒曬狄龍數據后悔交易他!直言可換2首輪 杜蘭特1換8實為雙輸?

      休媒曬狄龍數據后悔交易他!直言可換2首輪 杜蘭特1換8實為雙輸?

      顏小白的籃球夢
      2026-04-29 07:09:34
      買面包糕點時,懂行的人很少買這5種,店員:我們自己都很少吃

      買面包糕點時,懂行的人很少買這5種,店員:我們自己都很少吃

      阿龍美食記
      2026-04-17 14:04:17
      刑事訴訟法“上訴不加刑”,為何田永明從死緩到死立執?

      刑事訴訟法“上訴不加刑”,為何田永明從死緩到死立執?

      法律學堂
      2026-04-29 00:08:14
      美國禁止本國個人或實體向伊朗繳納霍爾木茲海峽通行費

      美國禁止本國個人或實體向伊朗繳納霍爾木茲海峽通行費

      財聯社
      2026-04-29 05:59:11
      竇靖童和宋妍霏巴黎被偶遇,留著寸頭很帥氣,兩人在一起很久了

      竇靖童和宋妍霏巴黎被偶遇,留著寸頭很帥氣,兩人在一起很久了

      一盅情懷
      2026-04-28 12:25:03
      李想稱理想L9 Livis比上汽大眾ID.ERA 9X至少領先兩代,大眾高管回應:理想僅價格和營銷水平領先,我們絕不會自稱是“500萬內最好”產品

      李想稱理想L9 Livis比上汽大眾ID.ERA 9X至少領先兩代,大眾高管回應:理想僅價格和營銷水平領先,我們絕不會自稱是“500萬內最好”產品

      魯中晨報
      2026-04-27 11:28:06
      極度炸裂!女子和閨蜜爬山游玩,碰到了男友和另一個閨蜜同游!

      極度炸裂!女子和閨蜜爬山游玩,碰到了男友和另一個閨蜜同游!

      川渝視覺
      2026-04-28 23:40:51
      不愧是加拿大名帥!重用3人造17分慘案,杜鋒沒苦硬吃廣東0-1廣州

      不愧是加拿大名帥!重用3人造17分慘案,杜鋒沒苦硬吃廣東0-1廣州

      后仰大風車
      2026-04-28 21:45:30
      女子給男主播刷4萬禮物,私下見面想親熱被拒絕,氣得要求退錢

      女子給男主播刷4萬禮物,私下見面想親熱被拒絕,氣得要求退錢

      新游戲大妹子
      2026-04-27 10:57:55
      愛因斯坦認為:只要瞬移到幾千光年外,就能看見秦始皇!

      愛因斯坦認為:只要瞬移到幾千光年外,就能看見秦始皇!

      觀察宇宙
      2026-04-28 18:41:39
      正式淘汰!4比0橫掃!4年1.95億頂薪泡湯

      正式淘汰!4比0橫掃!4年1.95億頂薪泡湯

      籃球教學論壇
      2026-04-28 18:35:22
      2026-04-29 08:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12883文章數 142638關注度
      往期回顧 全部

      科技要聞

      微軟剛“松綁”,OpenAI火速牽手亞馬遜!

      頭條要聞

      阿聯酋突然退出歐佩克 被視為是"特朗普的一次勝利"

      頭條要聞

      阿聯酋突然退出歐佩克 被視為是"特朗普的一次勝利"

      體育要聞

      魔術黑八活塞,一步之遙?!

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      中央政治局會議定調,八大看點速覽!

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      藝術
      家居
      教育
      時尚
      數碼

      藝術要聞

      趙樸初:比風水厲害100倍的宇宙定律

      家居要聞

      江景風格 流動的秩序

      教育要聞

      普通本科高校上新38種專業,將納入2026年高考招生

      普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

      數碼要聞

      全年省電2160度!小米推出米家中央空調風管機巨省電2026款:國補價4504元起

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩无码专区| 女人高潮流白浆视频| 国产精品无码成人午夜电影| 丰满大肥婆肥奶大屁股| 一区二区三区av天堂| 德令哈市| av一区二区精品在线| 激情久久av一区av二区av三区 | 中文无码伦av中文字幕在线| 亚洲 日韩 在线精品| 无码人妻一区二区三区AV| 亚洲3p| 成人国产精品秘片多多| 国产免费自拍视频| 临海市| 久久午夜无码鲁丝片直播午夜精品| 特黄 做受又硬又粗又大视频| 国产成人精品手机在线观看| 91探花在线| 香蕉国产人午夜视频在线观看| 亚洲av网站| 国产成人午夜高潮毛片| 色欧美片视频在线观看| 贵阳市| 亚洲妇熟xxxx妇色黄| 亚洲精品系列| 日韩人妻无码一区二区三区99| 亚洲sm另类一区二区三区| 一本色道久久综合狠狠| 国产在线一区二区不卡| 免费国产高清在线精品一区| 亚洲电影在线观看| V一区无码内射国产| 日本丰满老熟妇乱子伦| 中文乱码免费一区二区三区| 免费无遮挡无码视频在线观看| 国产成人无码www免费视频播放| 国产成人精品日本亚洲| 国产看黄网站又黄又爽又色| 人人肏| 国产精品免费一级在线观看|