溫度參數大概是LLM推理中最容易理解的控制手段了。把溫度調低,輸出就更確定、更收斂;調高,模型就更發散、更有"創意"。問題是,這套機制依賴于顯式的logits——而連續自回歸語言模型(CALM)恰恰沒有這東西。
我們在前面CALM框架的介紹中看到,CALM基本上把架構都做過修改,但是唯獨溫度采樣這塊一直沒動。
這時因為模型預測的是無限維空間中的連續向量,根本沒法枚舉所有可能輸出,更別提計算概率了。 或者說我們只有一個能吐樣本的黑盒,沒有logits可以縮放,沒有softmax可以操作。
![]()
調整token生成分布是語言模型最常用的技術之一操作也足夠簡單直接。
生產環境里幾乎所有LLM部署都離不開溫度采樣——它決定了輸出在創造性和確定性之間的平衡點
傳統做法是在softmax之前對logits做縮放,直接重塑詞匯表上的概率分布。但CALM的輸出空間是連續的、無限的,這條路是走不通,那怎么辦?本文要解決的就是這個問題:只靠抽樣能力,不碰任何概率數值,照樣可以實現溫度控制。
這里介紹的技術補全了CALM工具鏈的最后一塊拼圖,證明連續語言模型在可控性上并不遜于傳統token模型,效率優勢還能保住
溫度參數的工作原理
先快速回顧下經典溫度采樣的機制。設 x_i_ 為第i個token的logit,溫度調整后的概率分布長這樣:
![]()
溫度值T的作用很直觀:T < 1時分布變尖銳,概率質量往頭部token集中,適合編程、數學這類需要確定性的場景;T > 1時分布變平坦,尾部token也有更多機會被采到,適合創意寫作、brainstorming。
本質上就是除以一個更大的T會壓縮logit之間的差距,削弱softmax的"贏家通吃"效應,但CALM每一步并不輸出有限詞匯表上的離散分布,自然也就沒有logits向量可供縮放
這就是為什么需要一套完全不依賴似然函數的替代方案。
![]()
上圖展示了溫度對分布形狀的影響:左邊低溫,分布尖銳、確定性強;右邊高溫,分布平坦、多樣性高。
只有樣本,沒有概率?照樣能做溫度控制
CALM的生成器就是個黑盒:可以從里面抽樣本,但拿不到概率值也沒有logits。
一個看不見的分布,怎么讓它變尖或變平?
核心思路和經典溫度采樣相同的目標,從溫度調整后的分布中采樣但把直接操作概率的步驟全部換成純采樣操作。具體來說,假設有個基礎采樣器能產生x~P(x),目標是構造一個新采樣器產生x~PT(x),且只能用原采樣器反復抽樣這一種手段。
下一步是把溫度采樣重寫成不需要logits的形式,這就是后續所有推導的"起點公式":
![]()
有了這個公式就能在連續生成模態下復刻溫度采樣的效果。
碰撞方法(collision method)提供了基礎框架。但是還有一個重要的問題:1/T不是整數怎么辦?
碰撞技巧的基本原理
先把CALM的采樣適配到溫度控制框架上。這里需要用到碰撞方法:抽取多個獨立樣本,根據它們的匹配情況來間接確定概率。
這里說的"樣本x"是單個CALM解碼步驟產生的整個K-token塊,不是單個token
當 T=1/n(n為正整數)時,溫度調整后的分布正比于 P(x)?
碰撞技巧的數學基礎是獨立性:n次獨立抽樣全部等于同一個塊x的概率恰好是 P(x)n
操作方法就是抽n個樣本,全部相同才接受否則拒絕重來
舉個例子:某個塊的概率是 P(__ x __)=0.2,那三路碰撞的概率就是0.23=0.008
問題在于1/T 一般不是整數,比如沒法抽"3.33個樣本"。而且低溫度情況下拒絕率會很高,比如 T=0.1意味著需要連續10個完全相同的樣本,所以整數部分和小數部分必須分開處理,這就引出了分解策略。
指數分解:拆成整數和小數兩部分
分解策略把指數運算的代數規則映射到概率上,把1/T拆成整數n和小數 α 兩個分量:
![]()
整數部分用碰撞方法搞定,小數部分得靠伯努利工廠配合廣義二項級數。
比如 T=0.3,那 1/T=3.33,于是 n=3,α=0.33
整數分量處理起來相對簡單,還是碰撞方法那套。
小數分量就麻煩了,沒法用樣本重復的方法,所以要把問題轉化成無限級數形式。這就是伯努利工廠的用武之地:用只能訪問概率為p的硬幣,"制造"出一個概率為p? 的有偏硬幣。
所謂"概率為p的硬幣"其實就是個匹配指示器:從基礎采樣器抽一個樣本,跟目標x相等就返回成功。這是個伯努利隨機變量(真/假),成功概率等于 p=P(x)
兩部分必須同時滿足,采樣才算有效。
數學上這套東西還是很好解釋的但計算上有個嚴重瓶頸。低溫度的情況下——比如T=0.1——需要連續10個相同樣本。模型可能要跑幾百萬次才出一個有效結果。
批量近似:讓低溫采樣變得可行
作者給出的解法是批量近似。與其等連續n個相同樣本,不如一次性抽一大批樣本(N >> n)然后在里面找重復。
具體操作如下:假設 n=10(即 T=0.1),一次抽 N=200 個樣本統計每個塊出現的次數,出現次數≥10的塊就成為整數部分階段的合格候選
![]()
當 N=10、n=2 時,合格候選就是那些在10個樣本里出現至少2次的塊,這可比等連續相同樣本高效多了。
這種做法用一次可并行的批量抽樣替代了反復重啟,低溫情況下的樣本利用率大幅提升。
結合組合數學,低溫和小數分量的問題都有了穩健解法。溫度被正確遷移到隱式分布上,創造性和精確性之間的調節照樣能做,而且根本不需要知道真實分布長什么樣。
這對CALM意味著什么
這套采樣框架補齊了CALM工具鏈,剩下的挑戰主要是工程層面的:讓低溫解碼在實際推理中跑得夠快。批量近似提供了思路——不用反復重啟等碰撞,抽一個大批次然后在里面找,熟悉的創造性?精確性旋鈕就保住了。
這個思路的適用范圍遠不止CALM。任何能采樣但沒法給概率打分(或做歸一化)的隱式生成模型都能復用同樣的原理。
擴散語言模型、流匹配架構同樣適用
另外值得一提的是CALM把自回歸步數降到了原來的 1/K(比如K=4 時就是4倍壓縮),而上面這套采樣框架保住了細粒度的解碼控制,而實用性沒打折扣。
技術貢獻總結
核心創新點在于:不需要概率值也能做溫度控制。方法是把概率重加權P(x)?轉化成一個采樣事件——只在n個獨立抽樣碰撞到同一結果時接受。
數學上的關鍵技巧是把 1/T寫成n+α的形式。整數指數靠碰撞解決,小數指數靠伯努利工廠搞定p?。
工程上的突破是批量近似:一次并行批量加組合分組,取代了低效的反復重啟,低溫解碼終于變得可行。
更廣泛地看,這套方法適用于所有"能采樣但沒法評分歸一化概率"的隱式模型——擴散模型、流匹配等新范式都能用。
https://avoid.overfit.cn/post/e2161ee3e44c4645b1e1f31666edd9b7
作者:Fabio Yá?ez Romero
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.