henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
LLM的下一個推理單位,何必是Token?
剛剛,字節(jié)Seed團(tuán)隊(duì)發(fā)布最新研究——
DLCM(Dynamic Large Concept Models)將大模型的推理單位從token(詞) 動態(tài)且自適應(yīng)地推到了concept(概念)層級。
![]()
DLCM通過端到端地方式學(xué)習(xí)語義邊界,動態(tài)地將Token序列分割成概念,在壓縮后的概念空間中進(jìn)行深度推理,并借助因果交叉注意力將概念級推理結(jié)果重構(gòu)為Token級預(yù)測
由此,傳統(tǒng)LLM中基于均勻、冗余Token信息密度的計(jì)算分配,被轉(zhuǎn)化為面向概念的動態(tài)推理與自適應(yīng)算力分配。
在以推理為主的基準(zhǔn)任務(wù)上,DLCM在將推理階段FLOPs降低34%的同時,還將平均準(zhǔn)確率提升了2.69%
這也意味著,大模型的推理效率并不必然依賴更密集的Token級計(jì)算,而可以通過更高層級的語義組織來獲得。
接下來,我們具體來看。
分層的下一token預(yù)測框架
如上所說,DLCM的核心在于學(xué)習(xí)動態(tài)的Token-概念映射,實(shí)現(xiàn)了計(jì)算資源的自適應(yīng)分配。
之所以這樣做主要有兩方面原因:
一方面,在自然語言中,信息的分布并不是均勻的,而是集中在集中在少數(shù)語義轉(zhuǎn)換的節(jié)點(diǎn)上。
然而,在當(dāng)前的LLM中,所有token被統(tǒng)一處理,信息密度不均勻的自然語言消耗了同樣的計(jì)算量,造成了大量的冗余與模型容量的錯配。
另一方面,此前基于潛在推理的框架,如大型概念模型(Large Concept Model, LCM)等,不僅需要單獨(dú)訓(xùn)練編碼器和解碼器,還依賴人為劃分的固定的、句子級別的粒度,缺乏拓展性與自適應(yīng)性。
針對這些問題,DLCM通過一種分層的下一token預(yù)測框架,將計(jì)算重心轉(zhuǎn)移到壓縮后的語義空間,實(shí)現(xiàn)了更高效的深度推理。
![]()
具體來說,這一框架包含四個階段:
首先,在編碼階段,DLCM通過一個編碼器,提取細(xì)粒度的Token級表示,捕獲局部上下文信息,作為邊界檢測和最終Token級解碼的基礎(chǔ)。
接下來,在動態(tài)分割階段,模型基于Token級表示,計(jì)算相鄰Token之間在潛在空間中的局部不相似性(使用余弦距離),當(dāng)不相似度超過閾值時,模型判斷為一個語義斷點(diǎn)(概念邊界)。
![]()
與固定句子長度不同,DLCM端到端地學(xué)習(xí)這些邊界,實(shí)現(xiàn)內(nèi)容自適應(yīng)的分割。
它將同一片段內(nèi)(即同一概念內(nèi))的所有Token表示進(jìn)行均值池化(Mean Pooling),然后投影到更高維度的概念維度上,最終形成一個長度大大壓縮的概念序列 。
然后,在概念級推理階段,模型將上面得到的概念序列在壓縮空間中進(jìn)行深度的、高容量的推理,得到經(jīng)過深度推理和信息整合后的概念表示。
最后,在Token級解碼階段,DLCM利用經(jīng)過推理的概念表示,重構(gòu)并預(yù)測下一個token。
由此,DLCM通過以上四個步驟,成功地將計(jì)算分配從低效的Token-Token交互,轉(zhuǎn)移到高效的Token-概念-Token 交互,實(shí)現(xiàn)了計(jì)算資源的自適應(yīng)、結(jié)構(gòu)化利用。
關(guān)鍵技術(shù)突破與優(yōu)化
雖然DLCM架構(gòu)在設(shè)計(jì)上實(shí)現(xiàn)了Token級和概念級模塊的異構(gòu),但同時也引入了新的工程和訓(xùn)練挑戰(zhàn)。
全局解析器(Global Parser):內(nèi)容自適應(yīng)壓縮
DLCM 的核心優(yōu)勢在于它能夠根據(jù)信息密度動態(tài)地劃分概念。
例如,對于信息冗余度高的代碼或簡單文本,可以激進(jìn)地壓縮;對于語義復(fù)雜的轉(zhuǎn)折點(diǎn),則保持較低壓縮比。
為實(shí)現(xiàn)這一點(diǎn),研究引入了全局解析器(Global Parser)和輔助損失函數(shù)。
![]()
這個機(jī)制的關(guān)鍵在于:它不要求單個序列嚴(yán)格遵循目標(biāo)壓縮比 ,而是在整個Batch層面約束平均邊界生成率。
這使得DLCM在共享全局壓縮比例目標(biāo)的前提下,實(shí)現(xiàn)了隨領(lǐng)域變化、隨內(nèi)容波動的自適應(yīng)分段,從而將計(jì)算資源精準(zhǔn)地分配到語義最關(guān)鍵的區(qū)域。
針對Flash Attention的效率優(yōu)化
在解碼階段,Token需要通過因果交叉注意力關(guān)注其所屬的概念。
由于每個概念包含的Token數(shù)量是變化的,如果直接實(shí)現(xiàn),會嚴(yán)重依賴效率低下的動態(tài)掩碼和不規(guī)則的內(nèi)存訪問。
針對這一問題,研究引入概念復(fù)制(Concept Replication)策略。它將概念特征沿著序列維度復(fù)制擴(kuò)展,使其長度與原始Token序列對齊。
![]()
由此,研究將復(fù)雜的可變長交叉注意力問題轉(zhuǎn)換為長度對齊、局部恒定的注意力問題,并使其能夠利用高度優(yōu)化的Flash Attention Varlen內(nèi)核,獲得了1.26倍到1.73倍的顯著加速。
異構(gòu)架構(gòu)的穩(wěn)定訓(xùn)練
由于DLCM 的Token級組件和概念級骨干網(wǎng)絡(luò)的寬度不一致,通過上投影連接,無法共享單一有效學(xué)習(xí)率。
為解決這一問題,研究采用解耦的最大更新參數(shù)化,為Token模塊和概念模塊分配了獨(dú)立的寬度縮放因子,并發(fā)現(xiàn)各組件的有效學(xué)習(xí)率應(yīng)與其寬度的倒數(shù)成比例縮放。
![]()
由此,研究成功地穩(wěn)定了這種不等寬架構(gòu)的訓(xùn)練,并實(shí)現(xiàn)了零樣本超參數(shù)遷移,即小型代理模型上找到的最佳學(xué)習(xí)率可以直接用于訓(xùn)練更大的DLCM模型。
量化最優(yōu)分配點(diǎn)
除上述優(yōu)化外,研究還進(jìn)一步基于scaling law探究了token級處理與概念級推理之間的最優(yōu)分配。
研究發(fā)現(xiàn),在固定壓縮比下,架構(gòu)效率在中等概念主干占比處達(dá)到峰值,而非隨概念容量單調(diào)提升。
更重要的是,這一最優(yōu)配置在規(guī)模增大時優(yōu)勢愈發(fā)明顯:隨著基線模型變大,在性能對齊的前提下,DLCM可實(shí)現(xiàn)越來越顯著的FLOPs節(jié)省。
![]()
在實(shí)驗(yàn)階段,研究采用了與LLaMA論文中報(bào)告的相同的全局批次大小、學(xué)習(xí)率和序列長度,讓每個模型都在1T Token上進(jìn)行訓(xùn)練。
![]()
其中,DLCM實(shí)現(xiàn)了43.92%的平均準(zhǔn)確率,超過了基線模型41.23%的分?jǐn)?shù),提升了2.69%。
One more thing
這篇論文的一作來自英國曼徹斯特大學(xué)的在讀博士生Qu Xingwei,師從Chenghua Lin教授。
![]()
他的研究方向聚焦于大語言模型(LLMs),主要包括預(yù)訓(xùn)練、微調(diào)、專家混合(Mixture of Experts)以及System-2大語言模型。
在教育背景方面,他本科畢業(yè)于北京航空航天大學(xué),導(dǎo)師為段海濱教授;碩士就讀于獲慕尼黑工業(yè)大學(xué),導(dǎo)師為Daniel Cremers教授。
在讀博前,他曾在字節(jié)跳動和小鵬汽車擔(dān)任研究工程師。
[1]https://x.com/GeZhang86038849
[2]https://arxiv.org/abs/2512.24617
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.