一般來說,字越少事情越大。
數(shù)學(xué)領(lǐng)域的研究成果因其高門檻很少能獲得廣泛的關(guān)注,而這一篇卻足足達(dá)到了 80 萬以上的瀏覽量。
![]()
這是一篇非常硬核的數(shù)學(xué)證明論文,來自華人學(xué)者 Yuansi Chen,解決了至今已有 36 年的 Talagrand 卷積猜想的數(shù)學(xué)問題,對于現(xiàn)代計(jì)算機(jī)科學(xué),機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域有深遠(yuǎn)的基礎(chǔ)意義。
![]()
Yuansi Chen,ETH D-MATH 統(tǒng)計(jì)研討會(huì)副教授,杜克大學(xué)統(tǒng)計(jì)科學(xué)系助理教授。在蘇黎世 ETH 的 ETH 數(shù)據(jù)科學(xué)基礎(chǔ)(ETH-FDS)擔(dān)任博士后研究員。2023 年獲得斯隆研究獎(jiǎng)。他的研究方向聚焦于統(tǒng)計(jì)機(jī)器學(xué)習(xí)、MCMC 采樣算法、優(yōu)化方法、域適應(yīng)性以及計(jì)算神經(jīng)科學(xué)中的統(tǒng)計(jì)挑戰(zhàn)。
![]()
論文標(biāo)題:Talagrand's convolution conjecture up to loglog via perturbed reverse heat
論文鏈接:https://arxiv.org/abs/2511.19374
該論文證明了在布爾超立方體上的熱半群 (Pτ) 下,任何非負(fù)函數(shù) f:{?1,1} n→?+ 都表現(xiàn)出比馬爾可夫不等式更好的統(tǒng)一尾部界限。具體來說,對于任何 η>e3 和 τ>0 ,
其中 μ 表示布爾超立方體 {?1,1}? 上的均勻測度,而 c_τ 是僅依賴于 τ 的常數(shù)。該結(jié)果在無維度依賴的情形下解決了 Talagrand 的卷積猜想,只額外損失一個(gè) log log η 因子。其證明依賴于布爾超立方體上反向熱過程的若干性質(zhì),并基于對該反向熱過程進(jìn)行精心設(shè)計(jì)的擾動(dòng)而構(gòu)造出的耦合方法。
也就是說,除了額外的 log log 因子外,Talagrand 卷積猜想的主要問題已經(jīng)被解決。
Zhipeng Huang 也進(jìn)行了轉(zhuǎn)發(fā),他也在思考這一數(shù)學(xué)領(lǐng)域的進(jìn)展對大語言模型訓(xùn)練的潛在影響。
![]()
背景與問題
Talagrand 卷積猜想于 1989 年首次提出,代表了概率論和泛函分析領(lǐng)域最重要的開放問題之一。該猜想關(guān)注熱半群應(yīng)用于布爾超立方體 {?1, 1}? 上的 L? 函數(shù)時(shí)的正則化性質(zhì)。這種離散幾何結(jié)構(gòu)在理論計(jì)算機(jī)科學(xué)、離散數(shù)學(xué)和統(tǒng)計(jì)物理中都至關(guān)重要。
熱半群 (P?) 充當(dāng)一個(gè)「平滑」算子,通過與偏置硬幣測度進(jìn)行卷積來定義。對于布爾超立方體上的函數(shù) f,P?f (x) 表示 f 在一個(gè)點(diǎn)的期望值,該點(diǎn)是通過以 (1?e??)/2 的概率獨(dú)立翻轉(zhuǎn) x 的每個(gè)坐標(biāo)而獲得的。雖然強(qiáng)大的超收縮性結(jié)果保證了對 p > 1 的 L? 函數(shù)的強(qiáng)正則化,但 L? 函數(shù)的行為仍然是個(gè)謎。
Talagrand 猜想預(yù)測,將此平滑算子應(yīng)用于任何 L? 函數(shù)會(huì)顯著改善尾部衰減 —— 具體來說,即概率 P (Pτf (X) > η‖f‖?) 應(yīng)以 1/(η√log η) 的速度衰減,并且在所有維度 n 和函數(shù) f 上都一致。這種與維度無關(guān)的性質(zhì)將代表一種普遍的正則化效應(yīng),與問題的復(fù)雜性無關(guān)。在這項(xiàng)工作之前,尾部概率是否在 η → ∞ 時(shí)消失仍然是一個(gè)開放問題。
本文為 Talagrand 猜想建立了第一個(gè)與維度無關(guān)的上限,證明了:
定理 1:對于每個(gè) τ > 0,存在一個(gè)通用常數(shù) c > 0,使得對于每個(gè)非負(fù)函數(shù) f: {?1, 1}? → R? 且 ‖f‖? ≠ 0,以及任何 η > e3,
此結(jié)果解決了 Talagrand 關(guān)于
是否在 η → ∞ 時(shí)消失的基本問題,提供了肯定的答案。雖然該界限比猜想的最優(yōu)速率 1/(η√log η) 多了一個(gè) log log η 因子,但它代表了對平凡馬爾可夫界限 1/η 的巨大改進(jìn),并使猜想的完全解決指日可待。
方法:擾動(dòng)反向熱過程
Yuansi Chen 的方法的技術(shù)核心在于通過他所謂的「擾動(dòng)逆熱過程」構(gòu)建了兩個(gè)馬爾可夫跳躍過程之間復(fù)雜的耦合。這種構(gòu)建代表了離散隨機(jī)分析中一項(xiàng)重大的方法學(xué)進(jìn)步。
該方法首先定義了前向和反向跳躍過程。前向過程 (U?) 始于定律 νf = f?μ,其坐標(biāo)以 1/2 的速率獨(dú)立翻轉(zhuǎn)。反向過程 (V?) 是 U? 的時(shí)間反演,它變?yōu)闀r(shí)間非均勻的,其跳躍速率取決于一個(gè)「得分函數(shù)」S?(x) := (x???f (x))/f (x)。至關(guān)重要的是,這個(gè)得分函數(shù)充當(dāng)了高斯設(shè)置中福爾默漂移的離散模擬,并保持了基本的鞅性質(zhì)。
核心創(chuàng)新在于構(gòu)建一個(gè)耦合 (V?, W?),其中兩個(gè)過程共享相同的泊松隨機(jī)測度以實(shí)現(xiàn)最大相關(guān)性,但 W? 在其跳躍速率中引入了一個(gè)精心設(shè)計(jì)的擾動(dòng)。與可以直接擾動(dòng)漂移的連續(xù)設(shè)置不同,離散設(shè)置需要通過狀態(tài)依賴和坐標(biāo)依賴的因子 δ?(x) 來擾動(dòng)跳躍速率。這種擾動(dòng)經(jīng)過校準(zhǔn),以確保 W? 保持在布爾超立方體上,同時(shí)實(shí)現(xiàn)所需的耦合性質(zhì)。
技術(shù)上,證明結(jié)合了:
跳過程的鞅不等式
類 Duhamel 展式
p - 偏置的 Fourier/Parseval 分析
對梯度/得分的精細(xì)控制
這些工具共同消除了此前方法中不可避免的維度依賴因素,使得在布爾超立方體上實(shí)現(xiàn)「無維度」控制成為可能。
在離散結(jié)構(gòu)中:
噪聲是跳躍型而非連續(xù) Gaussian OU 流
對稱性較弱
稀有區(qū)域(rare regimes)中必須引入更強(qiáng)的擾動(dòng)
分布在奇異點(diǎn)附近缺乏連續(xù)高斯半群的光滑調(diào)和結(jié)構(gòu)
因此當(dāng)前方法不可避免地留下一個(gè) loglog η 的殘差損失。
從連續(xù)空間到離散空間的適應(yīng)帶來了幾個(gè)根本性的挑戰(zhàn),Yuansi Chen 通過創(chuàng)新技術(shù)解決了這些挑戰(zhàn):
跳躍速率與漂移擾動(dòng):直接的漂移擾動(dòng)會(huì)將過程移出 {-1, 1}?,因此需要開發(fā)跳躍速率擾動(dòng)方法。這導(dǎo)致了更復(fù)雜的狀態(tài)依賴動(dòng)力學(xué),但保留了離散結(jié)構(gòu)。
L? 距離問題:在高斯空間中有效的標(biāo)準(zhǔn) L? 界在布爾超立方體上變得有問題。耦合構(gòu)建專門設(shè)計(jì)為避免依賴此類界,而是通過一種新穎的多階段方法利用總變差控制。
多階段杜阿梅爾公式:一項(xiàng)關(guān)鍵創(chuàng)新涉及在多個(gè)時(shí)間間隔而不是單個(gè)階段應(yīng)用杜阿梅爾公式。這種多階段方法被證明對于通過有效利用 Pτ 隨時(shí)間的平滑性質(zhì)來獲得無維度界限至關(guān)重要。
該證明建立了兩個(gè)關(guān)鍵的耦合性質(zhì):V? 和 W? 律之間的總變差控制(引理 2),以及一個(gè)近似單調(diào)耦合性質(zhì),確保 log Pτf (W?) 的大值以高概率對應(yīng)于 log Pτf (V?) 的更大值(引理 3)。
總結(jié)
為布爾熱半群提供了幾乎最優(yōu)、無維度依賴的尾部正則化結(jié)果;
引入了一種全新的「反向過程耦合」技術(shù),可應(yīng)用于離散隨機(jī)系統(tǒng);
提升了布爾函數(shù)反集中(anti-concentration)分析的工具箱;
在離散采樣、組合結(jié)構(gòu)上的 score-based 生成模型等領(lǐng)域具有潛在外溢效應(yīng)。
這項(xiàng)工作代表了離散隨機(jī)分析領(lǐng)域的一項(xiàng)里程碑式成就,成功地將復(fù)雜的連續(xù)空間技術(shù)與離散概率相結(jié)合。該界限的無維度性質(zhì)對理論計(jì)算機(jī)科學(xué)具有直接影響,其中布爾超立方體在學(xué)習(xí)理論、復(fù)雜性理論和近似算法中作為基本結(jié)構(gòu)。
也許最重要的是,這篇論文為徹底解決塔拉格朗猜想奠定了一條清晰的道路。剩余的 log log η 因子代表了未來研究的明確目標(biāo)。作者指出,對耦合過程距離的更精細(xì) L? 界或替代擾動(dòng)設(shè)計(jì)可能會(huì)消除這個(gè)最終因子。
與機(jī)器學(xué)習(xí)中基于得分的生成模型的明確聯(lián)系表明了潛在的跨學(xué)科影響,其中來自離散得分函數(shù)和時(shí)間反演的見解可以為離散生成模型的理論基礎(chǔ)提供信息。
對于計(jì)算機(jī)科學(xué)家和 ML 研究員來說,這篇論文不僅僅是一個(gè)不等式的證明,它:
1. 升級(jí)了工具箱: 提供了處理高維離散空間概率分布的新工具。
2. 連接了生成模型: 其證明核心(反向熱流)與當(dāng)前的 AI 熱點(diǎn)(擴(kuò)散模型)在數(shù)學(xué)本質(zhì)上相通。
3. 量化了正則化: 也就是為什么「平滑 / 加噪」總是能帶來「好」的分布性質(zhì)。
該論文將一個(gè)數(shù)十年懸而未決的開放問題轉(zhuǎn)變?yōu)橐粋€(gè)擁有明確后續(xù)步驟的活躍領(lǐng)域,同時(shí)增進(jìn)了對離散結(jié)構(gòu)上正則化效應(yīng)的基本理解。這項(xiàng)工作既是一個(gè)重要的解決方案,引導(dǎo)未來深入探索連續(xù)和離散隨機(jī)分析之間豐富的相互作用。
更多信息,請參閱原論文。
? THE END
文章來源:機(jī)器之心。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.