網易首頁 > 網易號 > 正文申請入駐

從自動建模視角估計過參數化模型

2026-01-18 11:08:53　來源: CreateAMind

上海舉報

分享至

Estimation of Over-parameterized Models from an Auto-Modeling Perspective

從自動建模視角估計過參數化模型

https://arxiv.org/pdf/2206.01824

摘要

從模型構建的角度出發，我們提出一種適用于過參數化模型擬合的范式轉變。在理念上，其核心思想是將模型擬合于未來觀測值，而非已觀測的樣本。在技術上，給定一種用于生成未來觀測值的插補方法，我們通過對目標期望損失函數的近似進行優化來擬合過參數化模型，該近似基于其樣本對應形式和一個自適應對偶函數。所需的插補方法也采用相同的估計技術，并結合一種自適應的 m m-out-of- n n 自助法予以構建。我們通過多重正態均值問題、 n < p 的線性回歸以及基于神經網絡的 MNIST 手寫數字圖像分類等應用加以說明。數值結果表明，該方法在這些多樣化任務中均展現出優越性能。盡管本文主要為闡述性質，但仍對相關理論問題進行了深入探討，并在最后就若干開放性問題提出評述。

關鍵詞：自助法；交叉驗證；未來觀測；圖像分類；重采樣

1 引言

過度參數化模型，如神經網絡，在統計分析中起著至關重要的作用。它們的主要優勢在于能夠靈活且高效地近似不同結構中的非線性函數。然而，應用過度參數化模型可能會帶來挑戰（參見，Nalisnick等人（2019））。主要挑戰出現在模型估計過程中，這通常涉及基于觀測數據最小化損失函數（Vapnik，1991）。在這種情況下，對觀測數據看似樂觀的性能未能推廣到總體數據，導致因存在泛化差距而廣為人知的過擬合問題。這種過擬合問題也是定義過度參數化的主要特征（參見，例如，Oneto等人，2023）。

傳統上，為了在提高過度參數化模型的有效性的同時減輕其相關挑戰，以預測為導向的模型選擇至關重要。預測方法的實施通常基于簡單有效的交叉驗證思想，主要參考文獻有Stone（1974，1977）、Geisser（1975）和Efron和Tibshirani（1994，第255頁，以及其中引用）。在現代機器學習時代，正則化技術（Bühlmann和Van De Geer，2011）通常用于通過使過度參數化模型“更簡單”來防止過擬合。正則化過程通常涉及選擇超參數，使模型選擇過程本質上成為超參數優化任務。

盡管簡單且總體有效，但當前擬合過度參數化模型的框架存在某些局限性。首先，模型估計和模型選擇過程是分開的。這種分離通常需要限制候選模型的數量以確保計算可行性。例如，在L1懲罰模型中，通常采用網格搜索方法來探索有限范圍的超參數值（以下簡稱為λ）。這種方法可能導致估計模型的不一致性，源于候選集選擇的變化。其次，超參數調整過程可能不適應觀測數據。例如，在K折交叉驗證方法中，相同的調整后的超參數用于K個模型，每個模型都基于不同的觀測數據擬合，以及使用完整觀測數據的最終模型（參見Tibshirani和Tibshirani，2009，以及其中引用）。此外，最近的研究，如Bates等人（2024），指出交叉驗證存在問題，表明它可能無法充分估計預測誤差。而且，也許最重要的是，當使用高維超參數以充分利用過度參數化模型的能力時，似乎需要新的方法。

在這里，我們采取模型構建的視角，提出了一個新的框架，自動建模（AM），用于估計過度參數化模型。從哲學上講，這種思維方式是將模型擬合到未來的觀測，而不是觀測樣本。技術上，給定一種生成未來觀測的插補方法，我們通過優化期望損失函數的近似來擬合這些未來觀測的過度參數化模型。這種優化基于經驗對應物和自適應對偶函數，該函數擴展了具有可估計超參數的懲罰函數。所需的插補方法也使用相同的估計技術，采用自適應m-out-of-n自舉方法開發。

所提出的估計框架本身似乎適用于使用自舉方法創建插補模型，自舉總體作為未來觀測，自舉樣本作為觀測數據。

然而，由于標準（n-out-of-n）自舉方法在高維問題中的困難（參見，Jiang等人，2024，以及其中引用），我們使用基于自適應m-out-of-n自舉的插補方法。值得注意的是，所提出的最終估計方法在過度參數化的背景下，是結合基于重采樣結果的真正方法；參見備注2。

AM通過各種應用進行說明，包括多正態均值問題、n < p線性回歸和基于神經網絡的MNIST數字圖像分類。數值結果表明，對于多正態均值問題，AM在大多數情況下優于其他流行方法。對于線性回歸，AM產生的模型參數估計導致性能大大改善，通過較低的預測誤差和增強的預測區間覆蓋率，與領先技術相比。在MNIST圖像分類中，當應用于標準模型結構時，AM顯著超越了幾種常用的正則化方法。

在本文的其余部分，我們將在第2節中全面探討所提出的AM框架。所需的數值算法在第3節中討論。第4節提供了相關的理論結果。第5節給出了三種不同示例中該方法的應用。第6節以一些備注結束。

2 總體框架

2.1 設置

作為損失函數。從第1節中詳細闡述的建模角度來看，我們將 θ 的最優估計定義為一組 θ -值，這些值最小化了相對于總體的期望損失。也就是說，這樣的 θ -值形成集合

2.2 模型估計的新方法

正如第1節中所闡述的，現有的框架如ERM可能存在某些局限性。這促使我們尋找一個近似解決方案來

2.3 通過數據分割和自適應重采樣進行插補

在本文中，我們主要關注給定觀測協變量的插補。更準確地說，我們通過多次插補生成未來的觀測

以一種簡單而高效的方式檢驗條件（12），引導我們采用 Kolmogorov–Smirnov 檢驗（KS 檢驗，Massey (1951)；另見 Liu (2023)）來評估插補模型的有效性。具體而言，KS 檢驗所得的 p 值——用于比較（12）中所述的插補分布與標準均勻分布——被用作有效性的度量指標。這一度量反過來成為選擇合適重抽樣方案以估計插補模型的關鍵指導。

為便于理解，圖1給出了所提出框架主要組成部分的圖示說明。補充材料S.1中提供了一個簡單的示例。AM的清晰性和計算效率將在以下注釋中進一步闡述。

注釋2：估計過程（算法1）也可視為將多個獨立的插補模型組合成一個單一模型，類似于bootstrap和貝葉斯平均方法。這種方法在過參數化模型中尤其相關，因為在這些模型中，bootstrap和類貝葉斯平均方法的有效性存疑。

注釋3：所提出的插補方法在概念上與現有的集成技術（尤其是Bagging和Stacking）具有相似之處，這兩種技術在統計學和機器學習領域已得到廣泛確立（Breiman, 1996; Wolpert, 1992）。然而，由于我們的方法不同于集成方法，其動機源于統計建模，并且僅保留單個模型。正因這一關鍵差異，我們的方法顯著提升了模型解釋與推斷的便捷性。

3 數值優化方法
在本節中，我們為 AM 估計量開發高效的數值優化算法。
為便于分析，我們假設損失函數和對偶函數的正則性條件（詳見補充材料 S.2.1）均成立。由于使用算法 2 和算法 3 實現的插補步驟與使用算法 1 實現的估計步驟涉及相同的優化問題，本節將聚焦于估計步驟。
具體而言，我們的目標是求解：

可以開發出算法 4 的多種變體。例如，通過將 θ 和 λ 的更新步驟替換為隨機梯度下降（SGD）更新或 ADAM 更新（Kingma 和 Ba, 2014），即可輕松獲得一種隨機坐標下降算法，作為算法 4 的隨機變體。該變體在第 5.3 節的神經網絡應用中被采用。對于本文所有的數值示例，算法 4 及其變體均產生了令人滿意的收斂結果。這些數值方法的正式理論性質將另文報告。

4 理論考量

4.1 模型有效性與估計有效性

現代過參數化模型在大數據應用中的成功，使我們相信，同時考慮樣本量增大時的建模過程，并引入一種新的“有效性”概念（或更準確地說，是關于潛在建模策略的“有效性”）至關重要。正是在此背景下，本節將給出有效性的數學定義，以確保第 4.2 節所呈現結果的清晰性；參見注釋 1 以了解類似觀點。

從概念上講，定義 1 放松了傳統假設——即模型在任何有限樣本量下都必須精確指定，這種假設通常用于建立模型的漸近“正確性”。接下來的命題 1 和 2 將說明此模型有效性定義如何與傳統的統計假設相關聯。首先，我們引入“模型泛化”的概念，以供后續參考。

4.2 AM 的估計有效性

5 應用

5.1 多個正態均值的同時估計

表1總結的結果表明，盡管在最初的簡單示例中DPMM優于AM，但在兩個更具挑戰性的示例中，AM的表現超越了包括DPMM在內的所有其他方法。這些結果展示了AM在多正態均值問題中捕捉復雜數據生成結構的能力。在這些具有挑戰性的情境下，AM相較于g-建模和DPMM的優越表現，也暗示了當應用類似模型結構時，其估計效率更高。關于底層μ不服從正態分布情形的額外數值結果，詳見補充材料S.10.6。

5.2 n < p 的線性回歸

結果匯總于表2和表3中。我們可以看到，無論使用何種對偶函數，AM在均方誤差（ME）方面均顯著優于所有其他方法。

此外，AM 在所有設定下均能提供令人滿意的 95% 預測區間覆蓋率，而其他所有方法均表現出顯著的覆蓋率不足。

5.3 基于神經網絡的圖像分類

為展示所提出方法在神經網絡模型中的應用，我們考慮一個使用著名 MNIST 數據集（LeCun 等，1998）進行圖像分類的數值示例。MNIST 數據庫是一個大型手寫數字數據庫，常用于訓練各類圖像處理系統。其訓練集和測試集的樣本量分別為 60,000 和 10,000。每個手寫數字（0–9）的圖像大小為 28 × 28 像素，像素值以灰度級表示，范圍從 0 到 255。因此，對于每個觀測，表示圖像，表示標簽或數字。該分類問題的目標是根據預測。

第 2.3 節提出的 AM 插補-估計方案在此示例中的具體實施在此簡要總結，以增強清晰性。插補過程（算法 2）包括擬合用于對訓練圖像預測新標簽的模型。這些訓練圖像與其新預測的標簽共同構成插補后的“未來觀測”，并用于算法 1 的最終估計過程。從概念上講，數據集中的每張圖像都與多個（可能變化的）標簽相關聯，這有助于有效防止模型對單一標簽過擬合。

為考察所提方法的效率，我們采用了兩種不同的神經網絡結構。第一種結構是一個前饋神經網絡，包含兩個全連接層。兩個隱藏層的節點數分別設為 400、800 和 1600（即分別進行三種配置實驗）。輸出層采用多變量邏輯鏈接（softmax），返回 10 個類別的概率。這種經典結構在文獻中常被用于評估模型訓練策略。第二種結構參考了 Jarrett 等人（2009）的描述：它將卷積神經網絡（CNN）特征提取器的輸出作為第一種結構的輸入。該特征提取器由兩個卷積層構成，分別包含 32 和 64 個通道，每個卷積層后接一個 2 × 2 的最大池化層。每個 CNN 層的濾波器尺寸設為 5 × 5，全連接層的隱藏節點數設為 200。所有結構均采用修正線性單元（ReLU）激活函數。

所有方法在四種不同模型下的測試誤差結果如表4所示。當使用AM時，可觀察到顯著的性能提升。值得注意的是，AM的性能超過了當前最先進的正則化技術Dropconnect（Mobiny等，2021；Wan等，2013），且模型結構相同，正如Wan等（2013）和Mobiny等（2021）所報告的那樣。與他們的方法相比，AM不僅表現出更快的收斂速度，還提供了更直接的實現方式。AM估計過程的詳細信息及所得參數詳見補充材料S.6.4。作為AM的一個附加優勢，它能夠檢測標簽錯誤的數據（詳見補充材料S.6.5）。

需要說明的是，本文引入的插補算法并不生成新的圖像（x），而若采用能夠生成新圖像的插補算法，性能可能會進一步提升。例如，數據增強方法（如隨機形變，Simard等，2003），已被證明在實踐中有效，可用于生成更多圖像。近年來一種流行的技術——生成對抗網絡（GAN, Goodfellow等，2020）——也為此方向提供了一種潛在策略。為簡化起見，本文未開展此類擴展實驗，相關結果將在其他地方報告。

6 結論性評述

本文從建模視角提出了一種用于過參數化模型估計的有前景的方法。未來的研究可聚焦于其應用，以進一步提升機器學習與統計學中過參數化及非過參數化模型的性能。例如，多正態均值示例中的數值結果表明，當過參數化與所提出的估計方法相結合時，能有效增強模型的靈活性與適用性，從而提高對未來觀測的預測效率。這些見解與深度神經網絡取得成功的廣泛共識相一致。我們相信，針對實踐中廣泛使用的統計模型深入探究這一現象，有望帶來引人入勝且具有價值的理論進展，這些進展將不僅強化、甚至可能超越傳統的基于似然的推斷方法。

在技術層面，對偶函數的設定與插補方法仍有進一步改進的空間。鑒于本文主要關注建模的基礎性問題，我們選擇采用一種強調模型檢驗的自適應自助法（adaptive bootstrapping）實現策略。盡管這種數據驅動的實現已展現出良好效果，但在穩健性與效率方面仍可能遭遇意料之外的局限——這在重抽樣方法中較為常見，尤其在高維問題中（Liu 等，2024）。因此，探索替代性的插補方法是值得的。例如，合成數據生成技術可能特別有用，因其已在多種任務中被證明有效，尤其是在處理復雜模型和高維數據方面（Liu 等，2024；Shen 等，2024；Tian 和 Shen，2024）。此外，反向考察所提出方法如何反過來改進此類模型也頗具意義——特別是結合第 5.3 節的圖像分類示例，并從 Box（1980）關于建模是一個迭代過程的視角出發（參見補充材料 S.12）。

漸進地，開發更高效的計算技術將進一步推動我們所提方法的成功，特別是在實現對大規模數據集更有效且有效的分析方面。最后，包括保形預測（conformal prediction）在內的統計推斷方法（參見 Cella 和 Martin，2022 及其中參考文獻）可在我們提出的框架內得到有效應用與發展。

原文鏈接： https://arxiv.org/pdf/2206.01824

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.