機器之心報道
機器之心編輯部
一般來說,字越少事情越大。
數學領域的研究成果因其高門檻很少能獲得廣泛的關注,而這一篇卻足足達到了 80 萬以上的瀏覽量。
![]()
這是一篇非常硬核的數學證明論文,來自華人學者 Yuansi Chen,解決了至今已有 36 年的 Talagrand 卷積猜想的數學問題,對于現代計算機科學,機器學習等相關領域有深遠的基礎意義。
![]()
Yuansi Chen,ETH D-MATH 統計研討會副教授,杜克大學統計科學系助理教授。在蘇黎世 ETH 的 ETH 數據科學基礎(ETH-FDS)擔任博士后研究員。2023 年獲得斯隆研究獎。他的研究方向聚焦于統計機器學習、MCMC 采樣算法、優化方法、域適應性以及計算神經科學中的統計挑戰。
![]()
- 論文標題:Talagrand's convolution conjecture up to loglog via perturbed reverse heat
- 論文鏈接:https://arxiv.org/abs/2511.19374
該論文證明了在布爾超立方體上的熱半群 (Pτ) 下,任何非負函數 f:{?1,1} n→?+ 都表現出比馬爾可夫不等式更好的統一尾部界限。具體來說,對于任何 η>e3 和 τ>0 ,
![]()
其中 μ 表示布爾超立方體 {?1,1}? 上的均勻測度,而 c_τ 是僅依賴于 τ 的常數。該結果在無維度依賴的情形下解決了 Talagrand 的卷積猜想,只額外損失一個 log log η 因子。其證明依賴于布爾超立方體上反向熱過程的若干性質,并基于對該反向熱過程進行精心設計的擾動而構造出的耦合方法。
也就是說,除了額外的 log log 因子外,Talagrand 卷積猜想的主要問題已經被解決。
Zhipeng Huang 也進行了轉發,他也在思考這一數學領域的進展對大語言模型訓練的潛在影響。
![]()
背景與問題
Talagrand 卷積猜想于 1989 年首次提出,代表了概率論和泛函分析領域最重要的開放問題之一。該猜想關注熱半群應用于布爾超立方體 {?1, 1}? 上的 L? 函數時的正則化性質。這種離散幾何結構在理論計算機科學、離散數學和統計物理中都至關重要。
熱半群 (P?) 充當一個「平滑」算子,通過與偏置硬幣測度進行卷積來定義。對于布爾超立方體上的函數 f,P?f (x) 表示 f 在一個點的期望值,該點是通過以 (1?e??)/2 的概率獨立翻轉 x 的每個坐標而獲得的。雖然強大的超收縮性結果保證了對 p > 1 的 L? 函數的強正則化,但 L? 函數的行為仍然是個謎。
Talagrand 猜想預測,將此平滑算子應用于任何 L? 函數會顯著改善尾部衰減 —— 具體來說,即概率 P (Pτf (X) > η‖f‖?) 應以 1/(η√log η) 的速度衰減,并且在所有維度 n 和函數 f 上都一致。這種與維度無關的性質將代表一種普遍的正則化效應,與問題的復雜性無關。在這項工作之前,尾部概率是否在 η → ∞ 時消失仍然是一個開放問題。
本文為 Talagrand 猜想建立了第一個與維度無關的上限,證明了:
定理 1:對于每個 τ > 0,存在一個通用常數 c > 0,使得對于每個非負函數 f: {?1, 1}? → R? 且 ‖f‖? ≠ 0,以及任何 η > e3,
![]()
此結果解決了 Talagrand 關于
是否在 η → ∞ 時消失的基本問題,提供了肯定的答案。雖然該界限比猜想的最優速率 1/(η√log η) 多了一個 log log η 因子,但它代表了對平凡馬爾可夫界限 1/η 的巨大改進,并使猜想的完全解決指日可待。
方法:擾動反向熱過程
Yuansi Chen 的方法的技術核心在于通過他所謂的「擾動逆熱過程」構建了兩個馬爾可夫跳躍過程之間復雜的耦合。這種構建代表了離散隨機分析中一項重大的方法學進步。
該方法首先定義了前向和反向跳躍過程。前向過程 (U?) 始于定律 νf = f?μ,其坐標以 1/2 的速率獨立翻轉。反向過程 (V?) 是 U? 的時間反演,它變為時間非均勻的,其跳躍速率取決于一個「得分函數」S?(x) := (x???f (x))/f (x)。至關重要的是,這個得分函數充當了高斯設置中福爾默漂移的離散模擬,并保持了基本的鞅性質。
核心創新在于構建一個耦合 (V?, W?),其中兩個過程共享相同的泊松隨機測度以實現最大相關性,但 W? 在其跳躍速率中引入了一個精心設計的擾動。與可以直接擾動漂移的連續設置不同,離散設置需要通過狀態依賴和坐標依賴的因子 δ?(x) 來擾動跳躍速率。這種擾動經過校準,以確保 W? 保持在布爾超立方體上,同時實現所需的耦合性質。
技術上,證明結合了:
- 跳過程的鞅不等式
- 類 Duhamel 展式
- p - 偏置的 Fourier/Parseval 分析
- 對梯度/得分的精細控制
這些工具共同消除了此前方法中不可避免的維度依賴因素,使得在布爾超立方體上實現「無維度」控制成為可能。
在離散結構中:
- 噪聲是跳躍型而非連續 Gaussian OU 流
- 對稱性較弱
- 稀有區域(rare regimes)中必須引入更強的擾動
- 分布在奇異點附近缺乏連續高斯半群的光滑調和結構
因此當前方法不可避免地留下一個 loglog η 的殘差損失。
從連續空間到離散空間的適應帶來了幾個根本性的挑戰,Yuansi Chen 通過創新技術解決了這些挑戰:
- 跳躍速率與漂移擾動:直接的漂移擾動會將過程移出 {-1, 1}?,因此需要開發跳躍速率擾動方法。這導致了更復雜的狀態依賴動力學,但保留了離散結構。
- L? 距離問題:在高斯空間中有效的標準 L? 界在布爾超立方體上變得有問題。耦合構建專門設計為避免依賴此類界,而是通過一種新穎的多階段方法利用總變差控制。
- 多階段杜阿梅爾公式:一項關鍵創新涉及在多個時間間隔而不是單個階段應用杜阿梅爾公式。這種多階段方法被證明對于通過有效利用 Pτ 隨時間的平滑性質來獲得無維度界限至關重要。
該證明建立了兩個關鍵的耦合性質:V? 和 W? 律之間的總變差控制(引理 2),以及一個近似單調耦合性質,確保 log Pτf (W?) 的大值以高概率對應于 log Pτf (V?) 的更大值(引理 3)。
總結
- 為布爾熱半群提供了幾乎最優、無維度依賴的尾部正則化結果;
- 引入了一種全新的「反向過程耦合」技術,可應用于離散隨機系統;
- 提升了布爾函數反集中(anti-concentration)分析的工具箱;
- 在離散采樣、組合結構上的 score-based 生成模型等領域具有潛在外溢效應。
這項工作代表了離散隨機分析領域的一項里程碑式成就,成功地將復雜的連續空間技術與離散概率相結合。該界限的無維度性質對理論計算機科學具有直接影響,其中布爾超立方體在學習理論、復雜性理論和近似算法中作為基本結構。
也許最重要的是,這篇論文為徹底解決塔拉格朗猜想奠定了一條清晰的道路。剩余的 log log η 因子代表了未來研究的明確目標。作者指出,對耦合過程距離的更精細 L? 界或替代擾動設計可能會消除這個最終因子。
與機器學習中基于得分的生成模型的明確聯系表明了潛在的跨學科影響,其中來自離散得分函數和時間反演的見解可以為離散生成模型的理論基礎提供信息。
對于計算機科學家和 ML 研究員來說,這篇論文不僅僅是一個不等式的證明,它:
1.升級了工具箱: 提供了處理高維離散空間概率分布的新工具。
2.連接了生成模型: 其證明核心(反向熱流)與當前的 AI 熱點(擴散模型)在數學本質上相通。
3.量化了正則化: 也就是為什么「平滑 / 加噪」總是能帶來「好」的分布性質。
該論文將一個數十年懸而未決的開放問題轉變為一個擁有明確后續步驟的活躍領域,同時增進了對離散結構上正則化效應的基本理解。這項工作既是一個重要的解決方案,引導未來深入探索連續和離散隨機分析之間豐富的相互作用。
更多信息,請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.