<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      貝葉斯在線模型選擇

      0
      分享至

      Bayesian Online Model Selection

      貝葉斯在線模型選擇

      https://arxiv.org/pdf/2602.17958


      摘要

      貝葉斯強盜(Bayesian bandits)中的在線模型選擇提出了一個根本性的探索挑戰:當環境實例是從先驗分布中采樣得到時,我們如何設計一種自適應策略,既能探索多個強盜學習器,又能在事后與其中最好的一個相競爭?我們通過引入一種用于隨機強盜在線模型選擇的新貝葉斯算法來解決這個問題。我們證明了貝葉斯遺憾(Bayesian regret)具有
      的 Oracle 風格保證,其中 M 是基學習器的數量,是最優基學習器的遺憾系數, T 是時間范圍。我們還在一系列隨機強盜設置中對我們的方法進行了實證驗證,展示了其與最佳基學習器具有競爭力的性能。此外,我們研究了在基學習器之間共享數據的效果及其在緩解先驗誤設(prior mis-specification)中的作用。

      1 引言

      隨機強盜問題(stochastic bandit problem)是交互式決策的一個基礎模型 [Lattimore and Szepesvári, 2020]。在每一輪交互中,學習器從幾個動作中選擇一個,每個動作都關聯著一個未知的獎勵分布,并觀察從該分布中抽取的隨機獎勵。學習器的性能通常用遺憾(regret)來衡量:即所選動作的累積獎勵與該環境中最佳可能策略的累積獎勵之間的差值。目標是設計能夠實現次線性遺憾(sublinear regret)的算法,確保隨著學習器與環境交互次數的增加,其平均遺憾趨于消失。這個簡單而強大的框架捕捉了從(部分)反饋中學習的本質,并且處于許多現實世界應用的核心,例如推薦系統、機器人技術和金融 [Silva et al., 2022; Ni et al., 2023; Klarich et al., 2024]。

      在其貝葉斯公式化中,隨機強盜問題假設未知獎勵分布上存在一個先驗分布,以捕捉關于環境的現有信念。這種視角催生了諸如 Thompson Sampling [Thompson, 1933; Russo et al., 2020] 等強大的算法,該算法通過從后驗分布中采樣并選擇對采樣實例最優的動作來誘導探索 [Agrawal and Goyal, 2012]。當可以通過易處理的后驗推斷(tractable posterior inference)來整合和更新先驗知識時(例如在存在共軛先驗的情況下),貝葉斯強盜特別具有吸引力。當共軛性不可用且精確推斷難以處理時,人們通常訴諸近似方法:馬爾可夫鏈蒙特卡洛(MCMC)方法,其漸近地逼近真實后驗;或者確定性替代方案,如拉普拉斯近似(Laplace approximations)和變分推斷(variational inference),它們提供了易處理的代理后驗 [Shahriari et al., 2016; Mazumdar et al., 2020]。

      在本文中,我們研究了最初在頻率學派(frequentist)設定中引入的在線模型選擇問題 [Agarwal et al., 2017; Pacchiano et al., 2020b; Marinov and Zimmert, 2021]。在該問題中,學習者被給定一組有限的 bandit 算法(“模型”),我們將其稱為基學習器(base learners)。每個基學習器可能都適合不同的環境實例,例如,一個基學習器可能針對稀疏線性結構進行了調整,而另一個則針對低維廣義線性獎勵進行了優化。我們在貝葉斯(Bayesian)設定下研究這個問題,在交互開始時,環境是從一個已知的先驗分布中采樣的,并且學習者隨時間與該固定實例進行交互。在每一輪中,學習者選擇一個基學習器,遵循其策略選擇一個動作,并觀察產生的獎勵。我們的目標是設計一種貝葉斯模型選擇策略,該策略在貝葉斯遺憾(Bayesian regret)上具有預言機最優(oracle-best)保證:即在對從先驗中抽取環境的期望下,學習者的遺憾與一個預言機(oracle)的遺憾具有競爭力;該預言機知曉實現的環境實例,并會針對該實例固定選擇單個最佳的基算法。

      現有的貝葉斯遺憾最小化方法,例如 Thompson 采樣(TS)及其變體,在隨機 bandit 問題中表現出強大的實證性能并享有次線性遺憾保證 [Zhang, 2022]。然而,它們并非專為在線模型選擇量身定制。經典 TS 是為決策集設計的,其中每個動作都有一個固定的獎勵分布;相比之下,在模型選擇中,學習者在基學習器之間進行選擇,每個基學習器本身就是一個 bandit 算法,其行為和性能隨著運行而演變。因此,識別實現環境下的最佳基學習器需要跨學習器的刻意元探索(meta-exploration),而不僅僅是單個學習者內部的動作層面探索。此外,標準 TS 通過后驗采樣進行探索,隨后針對采樣出的模型進行貪婪博弈(greedy play),并且沒有明確利用額外的結構信號(例如,某些動作的信息價值),而這些信號對于快速區分競爭的學習者可能至關重要。

      這種局限性在具有“信息鎖”(information locks)的環境中變得尤為明顯,在這些環境中,某些動作在先驗中的每個環境下都是一致次優的,但對于哪些動作是最優的卻具有高度的信息量 [Brukhim et al., 2025; Pacchiano et al., 2023]。在這種設定下,故意查詢信息豐富動作的專用策略可以顯著優于標準 TS。這些觀察結果激發了一種用于在線模型選擇的貝葉斯方法,該方法能夠結合互補的算法行為并自動適應實現的環境實例。雖然先前的文獻已經為頻率學派設定下的模型選擇開發了預言機風格的保證 [Dann et al., 2024b; Cutkosky et al., 2021],但具有可比理論保證的貝葉斯對應方法仍未被探索。為此,我們提出了一種用于一般隨機 bandit 問題的在線模型選擇的新貝葉斯算法。我們將我們的貢獻總結如下:


      2 預備知識

      貝葉斯序貫決策已經在一系列設定中得到了廣泛研究,包括強化學習、上下文老虎機(contextual bandits)以及更一般的部分觀測環境 [Fu et al., 2022; Ghavamzadeh et al., 2015]。






      3 問題設定 (Problem Setup)





      4 方法論與算法

      貝葉斯在線模型選擇算法利用后驗樣本在整個訓練過程中估計基學習器的性能。在時刻 t ∈ [ T ] ,元學習器從后驗分布中采樣對應于每個動作的平均獎勵,



      貝葉斯在線模型選擇算法的一個關鍵性質是,它在所有基學習器之間維護一個全局后驗分布,利用所有基學習器收集到的動作-獎勵對來更新該后驗分布。因此,盡管基學習器之間不進行直接通信,它們通過后驗分布共享信息,從而獲得了統計效率。貝葉斯在線模型選擇算法的偽代碼如算法 1 所示。

      5 分析

      在接下來的章節中,我們將提供算法 1 的理論分析。我們首先陳述我們的假設,以及我們在分析中使用的一些關鍵引理。然后,我們提供預言機最優保證(oracle-best guarantee)的證明概要,并指引讀者參閱附錄 A.1 以獲取完整證明。

      5.1 假設

      我們在分析中考慮以下假設:


      5.2 關鍵引理





      6 與 Thompson 采樣的比較



      附錄中的圖 5 顯示,我們的算法(簡稱為 B-MS),當配備 K K 個隨時間推移具有不同固定臂選擇的基學習器時,其實現的貝葉斯遺憾與 Thompson 采樣高度重合。這提供了強有力的證據,表明在這種 的特殊情況下,我們的貝葉斯遺憾界與 TS 的既定界限相吻合,因為最優基學習器總是選擇最優臂,從而導致零遺憾。

      7 實驗

      為了評估我們算法的性能,我們進行了實驗研究,將我們提出的元學習器與基學習器的單獨運行進行了比較。給定從先驗分布中采樣的環境,該框架允許基學習器是不同的老虎機(bandit)算法,或者是具有不同配置的相同算法。






      7.2 結果

      我們的元學習器在 UCB 和 LinTS 老虎機設定中都實現了與表現最佳的基學習器相當的性能。平均累積遺憾曲線與最優基學習器緊密跟蹤,而最優動作選擇率提供了令人信服的證據:B-MS 算法在 UCB 設定(c = 1)中實現了與最佳基學習器幾乎相同的性能,并在 LinTS 設定(c = 0.16)中接近最佳表現者。

      此外,我們的算法成功地避免了探索不足和過度探索。在圖 2 中,B-MS 的平均遺憾曲線呈現出次線性增長,這與在近乎貪婪的策略(c = 0.01, c = 0.1)中觀察到的近似線性遺憾累積形成了對比。同時,與那些過度探索的配置(c = 5, c = 10)相比,它保持了顯著更低的遺憾。圖 3 進一步證明,極端的參數選擇會導致次優行為:c = 0 代表一種純粹的利用策略,會迅速累積高額遺憾,而像 c = 25 這樣的大值則會引發過度探索,同樣導致性能不佳。元學習器成功適應了這些配置,其遺憾表現與最佳的 LinTS 變體相當。



      我們還研究了在基學習器之間共享數據對元學習器性能的影響。結果如圖 1 所示。我們可以看到,在所有圖表中存在一個共同趨勢:共享數據提高了元學習器的性能,并使算法更加高效。這與我們的理論預期一致,因為共享數據使得每個基學習器能夠觀察到更多樣本,從而在其學習曲線上更快地進步。

      我們在圖 1 中進一步挑戰了我們關于設定正確的先驗(well-specified prior)的假設 5.1。我們考慮元學習器設定錯誤(mis-specified),但其中一個基學習器設定正確的情況(圖 1b)。有趣的是,我們觀察到,即使元學習器設定錯誤,池中存在一個設定正確的基學習器也有助于元學習器從設定錯誤中恢復。在沒有任何設定正確的基學習器的情況下(即圖 1d 的設定),設定錯誤的元學習器不會表現出具有競爭力的性能,這反映了關于設定正確的先驗這一假設的重要性。

      在最后一個實驗中,我們將基學習器指定為 Thompson 采樣算法和信息鎖求解器(Information Lock Solver)算法,并應用我們提出的元算法 1。如圖 4a 所示,元學習器成功地利用了這些基學習器的多樣化建模范式,實現了比樸素 Thompson 采樣基線更低的累積遺憾。重要的是,該框架并不局限于那些共享相同算法但僅通過超參數配置而有所不同的基學習器。


      8 討論與未來工作

      我們提出的算法適用于一個靈活的在線模型選擇框架,其中任何隨機老虎機(bandit)算法都可以作為基學習器。從理論角度來看,一個有趣的擴展是分析在線模型選擇的貝葉斯遺憾下界。正如 5.3 節所討論的,先前的工作 [Marinov and Zimmert, 2021] 已經為頻率學派設定下的在線模型選擇建立了
      的下界,但貝葉斯下界仍然是一個未解決的問題。

      從應用角度來看,該框架特別適用于在線超參數調優,在這種情況下,必須在有限的計算預算下自適應地評估多種算法或參數配置。更廣泛地說,我們的方法論涵蓋了隨機老虎機之外的應用,例如具有非線性獎勵結構的在線學習場景,或具有結構化先驗的強化學習,其中不同的基學習器編碼了不同的模型假設。

      繼擴散 Thompson 采樣(Diffusion Thompson Sampling)以及 [Hsieh et al., 2023; Aouali, 2024] 的發展之后,一個有趣的方向是在貝葉斯在線模型選擇中利用擴散先驗(diffusion priors)。這一擴展將使得更具表達力的先驗分布成為可能,從而能夠涵蓋更廣泛變化的模型選擇問題。

      9 結論

      在本文中,我們研究了貝葉斯隨機老虎機(Bayesian stochastic bandits)中的在線模型選擇問題,并引入了貝葉斯在線模型選擇(Bayesian Online Model Selection)算法。我們的選擇策略利用從后驗分布中抽取的樣本來為每個基學習器計算一個勢函數。該勢函數提供了對實現遺憾(realized regret)的一種隨機估計,并且隨著后驗采樣的進行而不斷改進。


      我們在多臂老虎機(multi-armed)和線性老虎機(linear bandit)算法的模型選擇任務上評估了我們方法的實證性能。我們的算法能夠調整 UCB 和 LinTS 的超參數,實現了與我們的理論分析相一致的實證性能。此外,實驗表明,在基學習器之間共享數據提高了算法的整體性能,這在元學習器具有誤設先驗(mis-specified prior)時尤為有益。

      原文鏈接:https://arxiv.org/pdf/2602.17958

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大戰可能馬上開始了

      大戰可能馬上開始了

      安安說
      2026-02-25 10:11:39
      全球首款:三星Galaxy S26 Ultra手機支持APV編解碼器

      全球首款:三星Galaxy S26 Ultra手機支持APV編解碼器

      IT之家
      2026-02-26 07:34:32
      400億!沈騰徹底飛馳了

      400億!沈騰徹底飛馳了

      華商韜略
      2026-02-25 10:34:36
      升級版的仙人跳,比戴綠帽子還憋屈

      升級版的仙人跳,比戴綠帽子還憋屈

      霹靂炮
      2026-02-24 22:53:34
      克格勃的悲哀:偷到的西方技術,卻是壓垮蘇聯的最后一根稻草

      克格勃的悲哀:偷到的西方技術,卻是壓垮蘇聯的最后一根稻草

      呂醿極限手工
      2026-02-21 07:47:57
      “初十3不動,動了一年窮”,明日正月初十“地生日”,傳統要懂

      “初十3不動,動了一年窮”,明日正月初十“地生日”,傳統要懂

      小茉莉美食記
      2026-02-25 09:43:12
      煮湯圓,有人用開水,用冷水!廚師長:都不對,教您做法,不粘鍋

      煮湯圓,有人用開水,用冷水!廚師長:都不對,教您做法,不粘鍋

      阿龍美食記
      2026-02-23 17:09:09
      北京93歲老人終身未娶、無兒無女,去世前將千萬財產贈與照顧其12年的鄰居,法院判了

      北京93歲老人終身未娶、無兒無女,去世前將千萬財產贈與照顧其12年的鄰居,法院判了

      大風新聞
      2026-02-24 23:13:12
      陳嵐任四川省委宣傳部副部長、省委網信辦主任

      陳嵐任四川省委宣傳部副部長、省委網信辦主任

      汲古知新
      2026-02-24 23:25:54
      1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

      1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

      卿子書
      2026-02-25 08:58:03
      別再存定期了!央行釋放重要信號:普通人的財富保衛,主戰場已變

      別再存定期了!央行釋放重要信號:普通人的財富保衛,主戰場已變

      復轉小能手
      2026-02-24 17:31:33
      太慘了!冬奧保安被凍死在崗,波蘭選手冰刀直插眼球…

      太慘了!冬奧保安被凍死在崗,波蘭選手冰刀直插眼球…

      新歐洲
      2026-02-25 19:35:40
      WTT新加坡大滿貫八強對陣:孫穎莎內戰,王曼昱對韓朱雨玲

      WTT新加坡大滿貫八強對陣:孫穎莎內戰,王曼昱對韓朱雨玲

      五姑娘臺球
      2026-02-25 21:38:38
      浴缸陪睡只是冰山一角,多位助理服務明星方式曝光,一個個太離譜

      浴缸陪睡只是冰山一角,多位助理服務明星方式曝光,一個個太離譜

      完善法
      2026-02-26 01:16:24
      母親是短跑強國的黑人,父親是中國人,混血球員朱正現狀如何?

      母親是短跑強國的黑人,父親是中國人,混血球員朱正現狀如何?

      窺史
      2026-02-25 15:49:11
      都說不去日本,春節赴日的卻是這群人!日媒暗訪揭示內幕

      都說不去日本,春節赴日的卻是這群人!日媒暗訪揭示內幕

      一盅情懷
      2026-02-25 18:35:34
      最讓大齡剩女崩潰的是什么?網友:為啥我一個單身狗看的津津有味

      最讓大齡剩女崩潰的是什么?網友:為啥我一個單身狗看的津津有味

      帶你感受人間冷暖
      2026-02-22 16:13:39
      悲劇!20歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

      悲劇!20歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

      風過鄉
      2026-02-25 10:32:10
      從王濛蒙冤到米蘭冬奧慘敗:網友為何死咬王春露不放?這才是真相

      從王濛蒙冤到米蘭冬奧慘敗:網友為何死咬王春露不放?這才是真相

      老馬拉車莫少裝
      2026-02-22 12:19:12
      3-2!附加賽4大豪門出局:尤文無緣逆轉+意甲1隊晉級,2黑馬攪局

      3-2!附加賽4大豪門出局:尤文無緣逆轉+意甲1隊晉級,2黑馬攪局

      體育知多少
      2026-02-26 07:34:49
      2026-02-26 08:19:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1240文章數 18關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      日本計劃部署導彈部隊距臺灣僅110公里 中方強硬表態

      頭條要聞

      日本計劃部署導彈部隊距臺灣僅110公里 中方強硬表態

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      時尚
      房產
      數碼
      藝術
      公開課

      “復古甜心”穿搭突然大火!春天穿時髦又減齡

      房產要聞

      海南樓市春節熱銷地圖曝光!三亞、陵水又殺瘋了!

      數碼要聞

      音質降噪全升級!三星Buds 4系列正式發布 179美元起

      藝術要聞

      這些作品太美了,仙氣飄飄,三位大咖不容錯過!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版