Reframing the Expected Free Energy:Four Formulations and a Unification.
重構預期自由能:四種形式與一個統一框架
https://arxiv.org/abs/2402.14460?utm_source=chatgpt.com
![]()
![]()
摘要
主動推理是感知、學習與決策領域的前沿理論,可應用于神經科學、機器人學、心理學及機器學習領域。該理論基于期望自由能展開研究,其合理性主要源于多種形式化表述的直觀可信性(如風險與模糊性表述、信息增益與實用價值表述)。本文旨在系統闡述如何從單一根定義推導這些形式化表述的數學問題(即統一性問題),進而研究兩種具有不同根定義的場景。在第一種場景中,雖尚未提出對期望自由能的合理性證明,但所有形式化表述均可從其根定義推導得出。然而該場景下,主體無法對觀測結果設置任意先驗偏好——實際上,僅有限類與生成模型似然映射相容的觀測先驗偏好具有可行性。第二種場景雖已知期望自由能根定義的合理性證明,但僅能涵蓋兩種形式化表述(即狀態風險與模糊性表述、熵與期望能量表述)。
關鍵詞:主動推理,期望自由能,統一性問題
引言
主動推理(Friston等,2016;Itti與Baldi,2009;Schwartenbeck等,2018;FitzGerald等,2015;Fountas等,2020;Sancaktar等,2020;?atal等,2020;Cullen等,2018;Millidge,2019)是不確定性條件下決策的框架體系。該框架中,主體配備編碼環境動態特性的生成模型,以及近似潛變量真實后驗的變分后驗分布。變分后驗通過最小化變分自由能函數(機器學習領域亦稱負證據下界,Fox與Roberts,2012;?)計算獲得。雖然變分后驗定義了環境的最可能狀態,卻未指明應選擇何種行動。因此,主體通過最小化期望自由能以達成預設的偏好狀態或觀測目標。
變分自由能擁有一個明確的根定義,所有其他形式皆由此推導得出,而文獻中尚未為期望自由能確立此類根定義,導致其多種形式化表述間的源流關系懸而未決。
期望自由能是一種定義特定策略執行成本的函數,通過平衡探索與利用來實現目標:既要最大化實用價值(獎勵),又要最大化信息增益。實用價值依賴于主體的先驗偏好,這些偏好規定了偏好狀態或觀測結果,為主體提供目標導向行為的驅動力。
![]()
![]()
為解決雙重含義問題,先驗偏好有時被視為目標分布的一部分。然而本文證明,這一假設限制了有效先驗偏好的類別,并導致當前尚無法論證的期望自由能定義。后續章節將探討帕爾等人(2022)提出的兩種可能解釋,并闡明其局限性。附錄B與附錄C提供了本文所用性質的說明。
2. 生成模型
在主動推理中,主體配備了一個覆蓋從初始時刻到當前時刻t的環境生成模型。該模型由三部分組成:(a) 隱藏狀態序列s?:?——表示主體無法直接觀測的環境狀態;(b) 觀測序列o?:?——代表主體獲得的測量數據;(c) 動作序列a?:???——主體在環境中執行的操作。為簡潔起見,s?:?、o?:?和a?:???將分別記作s、o和a。此外,本文假設觀測結果依賴于狀態,而每個狀態又依賴于前一時刻的狀態與動作。這種設定在形式上稱為部分可觀測馬爾可夫決策過程(POMDP),其模型定義如下:
![]()
變分分布
前一節所述的生成模型編碼了關于環境動態的先驗信念。然而,當對關鍵量(如觀測o)進行測量時,主體需要計算關于狀態的后驗信念(例如P(s|o, a))。這些后驗信念編碼了主體在考慮新觀測后的更新信念。遺憾的是,計算真實后驗要么在解析上難以處理,要么計算成本過高。因此,真實后驗通常由變分分布Q(s|a)近似表示:
在主動推理中,變分后驗滿足:1)按時間步長進行因子分解(即時序平均場近似),但 2)所有狀態仍依賴于策略 a。這兩個假設導致變分分布的定義如下:
![]()
變分推斷與變分自由能
綜上所述,主體配備有生成模型 P ( o , s ∣ a )
)和變分分布 Q ( s ∣ a )
。在獲得觀測數據 o o后,變分分布需近似真實后驗 P ( s ∣ o , a ) 。這可以形式化表示為最小化近似后驗與真實后驗之間的庫爾貝克-萊布勒散度:
最小化該KL散度與最小化變分自由能(VFE)等價(證明見下文)。直觀而言,VFE在準確度(即觀測結果的預測準確程度)與復雜度(即后驗分布偏離先驗分布的程度)之間進行權衡。其形式化定義如下:
![]()
![]()
5. 規劃與期望自由能
![]()
![]()
5.1 統一性問題
![]()
![]()
重要之處在于,狀態風險是狀態預測后驗 F ( s ∣ a )
與狀態先驗偏好 T ( s ∣ a )
之間的KL散度,而模糊性是根據生成模型對似然映射的期望熵。狀態風險促使預測后驗向先驗偏好靠近,模糊性則鼓勵主體訪問能產生低熵觀測分布的狀態——即若抵達某狀態,我們便能預期將獲得何種觀測。關于觀測風險與模糊性的表述如下:
![]()
![]()
![]()
重要之處在于,信息增益是僅依賴預測分布因子的KL散度。這防止了主體停止探索環境所產生的退化行為(即信息損失,Champion等人,2023)。此外,實用價值基于偏好觀測T(o|a),為主體提供目標導向行為。最后,期望能量與熵的表述如下:
![]()
熵項確保優良策略能通過允許主體到達廣泛狀態來保持選項的開放性,這符合杰恩斯最大熵理論(Jaynes, 1957a,b)的隱含要求。此外,如下文證明所示,期望能量項既促使主體到達偏好狀態,又推動其選擇那些觀測分布具有低熵的狀態——即給定某狀態時,我們能預期將獲得何種觀測。
![]()
5.2 預測分布
如前所述,預測分布根據主體對環境當前狀態的最佳信念及其生成模型來預測未來。其形式化分解如下:
![]()
![]()
![]()
![]()
![]()
5.3 目標分布
第二個關鍵分布是目標分布,它編碼了主體期望達到的狀態與觀測。在后續章節中,我們將目標分布定義如下:
![]()
![]()
5.4 解決統一性問題
在明確了預測分布與目標分布后,我們現聚焦于統一性問題。我們將探究是否存在某種EFE形式化表述可作為根定義,從中推導出所有其他表述。首先,我們將根期望自由能定義為觀測風險與模糊性之和:
![]()
5.4.1 信息增益/實用價值形式化表述
本節將證明,以 C R O A ( a ˉ )
ˉ)作為根定義的期望自由能可以推導出信息增益/實用價值形式化表述。該推導基于以下等式:
![]()
![]()
5.4.2 狀態風險與模糊性形式化表述
本節將證明,狀態風險與模糊性之和是期望自由能的上界。從EFE定義出發,可以推導出:
![]()
![]()
重要之處在于,由于狀態風險與模糊性之和是EFE的上界,最小化該上界也將同時最小化EFE。
5.4.3 期望能量與熵形式化表述
最后,從方程(5)的狀態風險與模糊性之和出發,可以證明:
![]()
![]()
6. 局限性
![]()
![]()
![]()
6.1 觀測結果的先驗偏好
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
6.2 期望自由能的合理性論證
![]()
![]()
結論
本文旨在形式化期望自由能的定義,以及推導其四種形式化表述的問題(即統一性問題)。當期望自由能被定義為觀測風險與模糊性之和時,所有形式化表述均可被恢復,因此可在實踐中使用。然而,本文的一項重要貢獻在于揭示了某些觀測先驗偏好與似然映射不相容。由此我們面臨兩難選擇:要么建模者必須精心選擇主體的先驗偏好以避免沖突,要么放棄四種形式化表述之間的理論關聯。
另一個問題在于觀測風險與模糊性之和形式化表述缺乏合理性論證。盡管狀態風險與模糊性之和形式化表述已有論證,但僅論證一個下界不足以證明期望自由能本身的合理性。因此,未來研究應著力于從第一性原理推導觀測風險與模糊性之和形式化表述。值得注意的是,雖然狀態風險與模糊性之和形式化表述具備合理性論證,但該期望自由能定義無法恢復全部四種形式化表述,故不能構成統一性問題的有效解。
需說明的是,我們僅研究了期望自由能的兩種可能定義。通過替代性證明路徑和/或預測分布與目標分布的不同分解方式,或許能同時實現四種分解形式的恢復并消除先驗偏好與似然的沖突。然而,窮舉所有可能的分解與證明已超出本文范圍。
最后,本文為未來研究奠定了堅實基礎,尤其在深度主動推理領域。本文雖厘清了期望自由能定義,但尚未闡明如何利用深度神經網絡進行計算。因此,仍需開展額外研究以具體實現并實證評估所提出的期望自由能定義。
原文鏈接:https://arxiv.org/pdf/2402.14460
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.