期望自由能從何而來
Whence the Expected Free Energy?
https://direct.mit.edu/neco/article/33/2/447/95645/Whence-the-Expected-Free-Energy
![]()
期望自由能是主動推理理論中的一個核心量。所有主動推理智能體都被要求通過行動來最小化這個量,它分解為外在價值和內在價值項,這是主動推理智能體所展現的探索與利用平衡的關鍵。盡管其重要性不言而喻,但這個量的數學起源及其與變分自由能的關系仍不清楚。在這封信中,我們詳細研究了EFE的起源,并表明它并不僅僅是“未來的自由能”。我們提出了一個泛函,我們認為它是VFE的自然延伸,但它會主動抑制探索行為,從而證明探索并非直接源于將自由能最小化到未來的過程。接著,我們發展了一個新的目標函數,即期望未來的自由能,它既擁有EFE的認知成分,又具有作為預測未來與期望未來之間散度的直觀數學基礎。
1 引言
自由能原理(Friston, 2010; Friston & Ao, 2012; Friston, Kilner, & Harrison, 2006)是理論神經科學中一個新興的理論,它為自組織系統的動力學提供了一個統一的解釋(Friston, 2019; Parr, Da Costa, & Friston, 2020)。該原理提出,此類系統可以被解釋為體現了一個變分推理過程,該過程最小化一個單一的信息論目標:變分自由能。在理論神經科學中,自由能原理轉化為對大腦功能的優雅解釋(Friston, 2003, 2005, 2008a, 2008b; Friston, Trujillo-Barreto, & Daunizeau, 2008),它通過假定大腦的神經動力學執行變分推理,擴展了貝葉斯腦假說(Deneve, 2005; Doya, Ishii, Pouget, & Rao, 2007; Knill & Pouget, 2004)。在關于智能體所體現的密度形式的特定假設下,這一理論甚至可以向下轉化為神經回路層面,形成一種生物學上合理的神經過程理論(Bastos et al., 2012; Friston, 2008a; Kanai, Komura, Shipp, & Friston, 2015; Shipp, 2016; Spratling,2008)。
隨后,行動被納入這一理論框架,被稱為主動推理(Friston, 2011; Friston & Ao, 2012; Friston, Daunizeau, & Kiebel, 2009),其要求智能體采取行動以最小化關于行動的變分自由能(Buckley, Kim, McGregor, & Seth, 2017; Friston et al., 2006)。這將行動和感知視為自由能最小化這一同一指令的兩個方面,從而產生了一個適用于各種連續時間任務的控制理論框架(Baltieri & Buckley, 2017, 2018; Calvo & Friston, 2017; Friston, Mattout, & Kilner, 2011; Millidge, 2019b)。
最近的研究擴展了這些想法,以解釋對時間上延展的動作序列的推理(Friston & Ao, 2012; Friston, FitzGerald, Rigoli, Schwartenbeck, & Pezzulo, 2017; Friston, FitzGerald, Rigoli, Schwartenbeck, & Pezzulo, 2016; Friston et al., 2015; Tschantz, Seth, & Buckley, 2019)。在此,假設不是行動最小化瞬時的變分自由能,而是動作序列(或策略)最小化一個稱為期望自由能的量隨時間的累積和(Friston et al., 2015)。使用期望自由能的主動推理已被廣泛應用于各種任務和應用中,從模擬人類和動物的選擇行為(FitzGerald, Schwartenbeck, Moutoussis, Dolan, & Friston, 2015; Friston et al., 2015; Pezzulo, Cartoni, Rigoli, Pio-Lopez, & Friston, 2016),模擬視覺掃視和其他“認知覓食行為”(Friston, Lin, et al., 2017; Friston, Rosch, Parr, Price, & Bowman, 2018;Mirza, Adams, Mathys, & Friston, 2016; Parr & Friston, 2017a, 2018a),解決強化學習基準測試(?atal, Verbelen, Nauta, De Boom, & Dhoedt, 2020; Millidge, 2019a, 2020; Tschantz, Baltieri, Seth, & Buckley, 2019; Ueltzh?ffer, 2018; van de Laar & de Vries, 2019),到將精神疾病建模為異常推理的案例(Cullen, Davey, Friston, & Moran, 2018; Mirza, Adams, Parr, & Friston, 2019; Parr & Friston, 2018b)。與連續時間形式一樣,主動推理也配備了一個具有變分更新方程的生物學上合理的過程理論,這些方程被認為與觀察到的神經放電模式同構(Friston, FitzGerald, et al., 2017; Friston, Parr, & de Vries, 2017; Parr, Markovic, Kiebel, & Friston, 2019)。
期望自由能的一個關鍵特性是它可以分解為外在的、尋求價值的部分和內在的(認知的)、尋求信息的部分(Friston等人,2015)。后者通過鼓勵探索環境的未知區域來要求主動推理智能體解決不確定性,這一特性已被廣泛研究(Friston, FitzGerald,等人,2017a;Friston等人,2015;Schwartenbeck, FitzGerald, Dolan, & Friston,2013;Schwartenbeck等人,2019)。這一公式自然產生內在驅動力的事實被認為是相對于其他公式的一個優勢,后者通常通過在其損失函數中添加特定的探索項來鼓勵探索(Burda等人,2018;Mohamed & Rezende,2015;Oudeyer & Kaplan,2009;Pathak, Agrawal, Efros, & Darrell,2017)。
盡管期望自由能常被描述為自由能原理的一個直接擴展,可以解釋前瞻性策略,并且通常以類似的數學形式表達(Da Costa等人,2020;Friston, FitzGerald,等人,2017;Friston等人,2015;Parr & Friston,2017b,2019),但其起源仍然模糊不清。期望自由能的最小化有時是通過遵循自由能原理的歸謬法論證來推動的(Friston等人,2015;Parr & Friston,2019),即智能體被迫最小化變分自由能,因此它們唯一能采取行動的方式就是將其自由能最小化到未來。然而,由于未來是不確定的,它們必須最小化期望自由能。這一邏輯的核心是將變分自由能與期望自由能形式等同。
在這封信中,我們著手研究期望自由能的起源及其與變分自由能的關系。我們對這個問題提供了更廣闊的視角,表明期望自由能并不是擴展變分自由能以解釋以行動為條件的未來的唯一方法。我們推導出一個我們認為是變分自由能更自然類比的目標函數,稱之為未來的自由能,并對這兩個泛函進行了詳細的并排比較。關鍵在于,我們表明未來的自由能會主動抑制尋求信息的行為,從而證明認知項并不一定僅僅通過將變分自由能擴展到未來而產生。接著,我們研究了期望自由能中認知項的起源,并表明期望自由能就是未來的自由能減去期望自由能中認知項的負值,這為兩個泛函之間的關系提供了一個直接視角。
我們提出了一個在主動推理下進行行動選擇的、數學上有原則的起點:期望未來與期望未來之間的散度,由此我們獲得了一個新的泛函,即期望未來的自由能,它與廣義自由能密切相關(Parr & Friston,2019)。這個泛函在真實生成模型和有偏生成模型之間的散度方面具有自然的解釋;它允許對推理和策略選擇使用相同的泛函,并且它自然地分解為外在價值項和認知行動項,從而在保持基于期望自由能的主動推理的吸引人的探索特性的同時,也擁有一個數學上有原則且直觀解釋的起點。
2 變分自由能
變分自由能是變分推理中的一個核心量,它構成了對數模型證據以及先驗與后驗之間的庫爾貝克-萊布勒散度的可處理邊界(Beal, 1998; Blei, Kucukelbir, & McAuliffe, 2017; Fox & Roberts, 2012; Wainwright & Jordan, 2008)。(關于變分自由能的深入動機及其在變分推理中的應用,請參見附錄A。)
定義為時間t的變分自由能,記作Ft,由下式給出:
![]()
![]()
![]()
![]()
人們也可以將變分自由能論證為一種估計模型證據的技術。對數模型證據是貝葉斯推理中的一個關鍵量,但通常是難解的,意味著無法直接計算。直觀地說,對數模型證據衡量了模型下數據的似然,從而直接提供了模型質量的度量。根據自由能原理,最小化負對數模型證據(或驚奇)是自組織系統的最終目標(Friston & Ao, 2012; Friston et al., 2006)。變分自由能提供了對數模型證據的上界。這可以通過關于近似后驗對模型證據進行重要性采樣并應用延森不等式來證明:
![]()
由于變分自由能是對數模型證據(或驚奇)的上界,隨著變分自由能被最小化,它會成為對驚奇越來越準確的估計。為了理解變分自由能的特性,我們展示以下分解:
![]()
這種分解是實踐中通常用于計算變分自由能的方法,并且具有直觀的解釋。具體來說,最小化負精度(從而最大化精度)確保了在變分后驗所預測的狀態 x t
下,觀測具有盡可能高的似然;同時最小化復雜度項,即變分后驗與先驗之間的KL散度。因此,其目標是在最大化精度的同時,盡可能保持后驗接近先驗。實際上,復雜度項起到了隱式正則化的作用,降低了過度擬合任何特定觀測的風險。
3 期望自由能
雖然如前所述的變分推理僅允許我們在給定觀測的情況下對當前時刻進行推理,但可以將該形式體系擴展,以允許對未來行動或策略進行推理。
![]()
主動推理通過推斷一個變分策略分布 Q ( π )
來進行,該分布最大化此有偏生成模型的證據。直觀地說,這種方法顛覆了行動選擇問題的常規思路。主動推理智能體不問“我有一些目標;我需要做什么來實現它?”,而是問:“假設我的目標已經實現,那么我所采取的最可能的行動會是什么?”
將變分自由能擴展到未來面臨的另一個復雜性來自未來的觀測。雖然智能體在進行規劃問題時可以獲取當前的觀測(或數據),但它們還必須推理未知的未來觀測。這通過對目標函數求關于從生成模型中抽取的預測觀測 o τ
的期望來處理。
在主動推理框架中,目標是推斷一個既關于隱藏狀態也關于策略的變分分布,使其最大程度地擬合一個有偏的未來生成模型。該框架定義了待最小化的變分目標函數,即從時間 τ 到時間范圍 T 的期望自由能,記作 G :
![]()
![]()
![]()
![]()
其中 σ(x) 是一個 softmax 函數。這意味著,為了推斷最優策略分布,只需最小化未來每個時間步的期望自由能之和。推理過程通過使用生成模型展開預測的未來,計算這些未來的期望自由能,然后選擇使期望自由能之和最小的策略來進行。由于在時間平均場假設下,軌跡分解為各時間步的和,因此在本文的其余部分,只需考慮單個時間步 τ 就足夠了。
為了理解期望自由能,我們展示以下分解:
![]()
雖然期望自由能有許多種分解方式(全面概述見附錄B),但方程3.1中展示的可能最為重要,因為它將期望自由能分解為外在的、目標導向的項(文獻中有時也稱為工具性價值)和內在的、尋求信息的項。? 第一項要求智能體根據對未來信念,最大化期望觀測 的似然。因此,它引導智能體采取行動以最大化其期望在未來發生的概率。這被稱為外在價值項,因為它是期望自由能中體現智能體偏好的項。
方程3.1中的第二項是期望信息增益,通常被稱為認知價值,因為它量化了通過訪問特定狀態所獲得的信息量。由于信息增益為負值,最小化整體期望自由能就意味著最大化期望信息增益。這驅使智能體最大化其后驗信念與先驗信念之間的散度,從而促使智能體采取那些能最大程度地為其信念提供信息并減少不確定性的行動。正是外在價值項和內在價值項的結合,支撐了主動推理聲稱其對探索-利用困境擁有一個原則性方法的說法(Friston, FitzGerald, et al., 2017; Friston et al., 2015)。
通過最大化期望信息增益或“貝葉斯驚奇”(Itti & Baldi, 2009)來驅動探索行為的想法,在神經科學中已有討論(Baldi & Itti, 2010; Ostwald et al., 2012),并且在強化學習中也被經常提出(Houthooft et al., 2016; Still & Precup, 2012; Sun, Gomez, & Schmidhuber, 2011; Tschantz, Millidge, Seth, & Buckley, 2020)。
4 期望自由能的起源
鑒于期望自由能在主動推理框架中的核心地位,探究這一量的起源和性質至關重要。期望自由能通常通過一個歸謬法論證來推導(Friston et al., 2015; Parr & Friston, 2019)。? 其邏輯如下:智能體擁有驅動行動選擇的策略先驗信念。根據自由能原理,有機體的所有狀態,包括決定策略的狀態,都必須改變以最小化自由能。因此,關于策略的唯一自洽的先驗信念是,智能體將通過其策略選擇過程在未來最小化自由能。如果智能體沒有這樣的先驗信念,那么它就會選擇那些不能在未來最小化自由能的策略,從而也就不是一個最小化自由能的智能體。這一邏輯需要一個定義良好的概念,即給定特定策略下未來狀態和觀測的自由能。主動推理文獻隱含地假設期望自由能是符合這一概念的自然泛函(Friston, FitzGerald, et al., 2017; Friston et al., 2015)。在接下來的部分中,我們認為期望自由能實際上并不是唯一能夠量化策略條件未來自由能這一概念的泛函,并且我們確實提出了一個不同的泛函——未來的自由能,我們認為它是變分自由能擴展到未來狀態的一個更自然的延伸。
4.1 未來的自由能。我們認為,將自由能自然擴展到未來,必須擁有與變分自由能兩個關鍵屬性直接對應的部分:它必須可以表示為后驗與生成模型之間的KL散度,使得最小化它能促使變分密度更好地逼近真實后驗;并且它也必須為未來觀測的對數模型證據提供邊界。為對數模型證據(或驚奇)提供邊界至關重要,因為驚奇是核心量,根據自由能原理,所有系統都被驅使去最小化它。如果擴展到未來的變分自由能不能為驚奇提供邊界,那么最小化這種擴展形式就不一定能最小化驚奇,因此任何最小化這種擴展形式的智能體都將違反自由能原理。在此,我們提出一個我們聲稱滿足這些要求的泛函:未來的自由能。
我們希望推導出在未來某個時間 τ 且以某個策略 π 為條件的變分自由能的表達式。換句話說,我們希望量化在給定某個行動序列的情況下,未來某個時間點將會出現的自由能。在此,我們通過保留與變分自由能(見方程2.1)相同的項,但將變分分布以我們關注的策略為條件,并為未來時間點 τ 重寫,來推導未來自由能的一種形式,記作 FEF τ ( π )
。此外,由于未來的觀測是未知的,我們必須像在期望自由能中那樣,根據我們對未來觀測的信念的期望來評估我們的自由能。因此我們定義:
![]()
由于該方程僅僅是變分后驗與生成模型之間的KL散度,它滿足第一個要求。接下來,我們通過展示一個關鍵分解來研究FEF的性質。與VFE類似,我們可以將FEF分解為能量項和熵項,或者精度項和復雜度項,這對應于EFE中的外在項和認知行動項:
![]()
然而,與期望自由能不同的是,這里的期望信息增益(復雜度)項是正的,而在期望自由能項中它是負的。由于目標函數(無論是期望自由能還是未來的自由能)是要被最小化的,我們可以看到,使用未來的自由能要求我們最小化信息增益,而期望自由能則要求我們最大化它(或最小化負的信息增益)。因此,一個基于未來自由能的智能體試圖在最大化獎勵的同時,盡可能少地進行探索。雖然這聽起來令人驚訝,但實際上它直接類比于變分自由能中的復雜度項,后者要求在最大化觀測似然的同時,盡可能保持后驗接近先驗。?
4.2 對期望模型證據的邊界。接下來,我們展示未來的自由能如何可以作為滿足第二個要求的期望模型證據的邊界被推導出來。我們將期望模型證據定義為模型證據對未來未知狀態的直接擴展。
從當前時間步 t 到某個時間范圍 T 的軌跡的期望負對數模型證據為
![]()
關鍵的是,這是期望模型證據的上界,可以通過最小化FEF來收緊該上界。相比之下,再來看期望自由能,我們在下面看到,由于KL散度總是 ≥ 0,期望信息增益總是正的,因此期望自由能是期望模型證據的下界:
![]()
由于期望自由能旨在最小化負信息增益(從而最大化正信息增益),我們可以看到,最小化期望自由能實際上使其偏離期望模型證據更遠。?
我們在附錄D中進一步研究期望自由能及其作為邊界的性質。此外,在附錄E中,我們回顧了文獻中試圖將期望自由能推導為期望模型證據邊界的其他嘗試,并討論了它們的不足之處。
4.3 期望自由能與未來的自由能。為了更深入地理解期望自由能與未來自由能之間的細微差別,我們對這兩個泛函進行了詳細的并排比較:
![]()
雖然這兩種公式最初看起來可能非常相似,但關鍵的區別在于變分項。未來的自由能類似于變分自由能,衡量的是變分后驗 Q ( x τ ∣ o τ ) 與生成模型 Q ( x τ ∣ π )
之間的差異。而期望自由能衡量的是變分先驗與生成模型之間的差異。正是這種差異使得期望自由能并非變分自由能對未來時間步的直接擴展,并支撐了其獨特的認知價值項。
我們現在證明,期望自由能和未來的自由能都可以分解為與外在價值相關的期望似然,以及與認知價值相關的變分后驗與變分先驗之間的期望KL散度。我們將未來自由能中的生成模型分解為(有偏的)似然和一個變分先驗,并將期望自由能中的生成模型分解為近似后驗和一個(有偏的)邊緣分布:
![]()
然后,在未來的自由能和期望自由能中,都可以將變分先驗和變分后驗結合起來,形成認知項。關鍵在于,認知價值項在未來的自由能中是正的,而在期望自由能中是負的,這意味著未來的自由能懲罰認知行為,而期望自由能則促進認知行為:
![]()
方程4.2表明,FEF和EFE可以以類似的方式進行分解。我們注意到,FEF的外在價值項是一個似然,而EFE的則是一個邊緣似然。然而,最重要的區別在于認知價值項的符號。由于優化FEF或EFE都需要最小化它們,最小化FEF要求我們最小化信息增益,而EFE則要求我們最大化它。因此,一個基于FEF的智能體試圖在最大化其外在價值的同時,盡可能少地進行探索。那么一個關鍵問題就出現了:EFE中負的信息增益從何而來?
雖然期望信息增益項符號的這種差異可能暗示著這兩個量之間存在某種深層聯系,但在此我們提供一個關于此問題的實用主義視角。我們表明,得到EFE的一個可能途徑就是,它僅僅是FEF減去期望信息增益。這意味著EFE的認知價值項并非源于與變分推理的某種聯系,而是人為構造出來的:
![]()
雖然這個證明闡明了EFE和FEF之間的關系,但作為對EFE起源的解釋,它在理論上并不能令人滿意。EFE的很大一部分吸引力在于,它聲稱展示了認知價值是“自然地”從未來自由能最小化中產生的。相比之下,我們在這里已經表明,最小化未來自由能并不要求承諾探索行為。雖然這并不質疑使用信息增益項進行探索的有用性,也不質疑將EFE用作損失函數的有效性,但它確實對該目標的數學原理性提出了疑問。因此,我們無法直接理解,為什么自由能原理明確要求智能體必須最小化EFE,而不是其他某個自由能泛函。雖然這一事實起初可能令人擔憂,但我們相信,它最終通過允許以有原則的方式擴展主動推理以包含其他目標函數,從而增強了該形式體系的能力(Biehl, Guckelsberger, Salge, Smith, & Polani, 2018)。在下一節中,我們提出一個替代EFE的目標函數,它產生相同的尋求信息的認知價值項,但以一種數學上有原則且直觀的方式將其推導為期望未來與期望未來之間散度的邊界。
5 期望未來的自由能
在本節中,我們提出一個新的目標泛函,稱之為期望未來的自由能,它擁有與期望自由能相同的認知價值項,同時具有更自然、更直觀的基礎。我們從這樣一個直覺出發:為了適應性地行動,智能體應該采取行動,以最小化它們預測將要發生的事情與它們期望發生的事情之間的差異。換句話說,對于智能體來說,適應性行動包括迫使現實按照其偏好展開。我們可以將這一目標在數學上表述為智能體對可能發生的事物的真實生成模型與其對期望發生的事物的有偏生成模型之間的KL散度:
![]()
期望未來的自由能可以解釋為真實生成模型與有偏生成模型之間的散度,從而為最小化期望未來的自由能的智能體的目標提供了直觀的理解。這個散度目標迫使智能體使有偏生成模型與真實生成模型保持一致。由于有偏生成模型的預測嚴重偏向于智能體的先驗偏好,實現這種一致的唯一途徑就是采取行動,使真實生成模型預測出符合有偏生成模型的期望結果。期望未來的自由能目標包含了標準的主動推理直覺,即智能體通過有偏推理來行動,以最大化有偏模型的精度。然而,維持兩個獨立的生成模型(一個有偏,一個真實)也有助于解決一個概念性難題:如果智能體所能訪問的僅僅是一個有偏的生成模型,它如何能夠對復雜的動態過程做出準確的后驗推理和未來預測?直觀上看,有偏模型也會使推理中那些對于方案正常運行至關重要的關鍵部分產生偏差。然而,通過同時維持一個真實生成模型(與當前時刻使用的相同,并通過與環境互動來學習)和一個有偏生成模型(通過系統地使真實模型的臨時副本產生偏差而創建),我們巧妙地區分了對未來預測所需的真實推理成分和有偏推理成分。?
與期望自由能類似,期望未來的自由能目標可以分解為外在項和內在項。我們將其與期望自由能的分解直接進行比較:
![]()
首先要注意的是,在近似后驗是正確的假設 Q ( x τ ∣ o τ ) ≈ p ( x τ ∣ o τ )
下,期望未來的自由能和期望自由能的內在價值項是相同的,因此最小化期望未來的自由能的智能體必然會展現出與最小化期望自由能的智能體相同的認知行為。然而,與期望自由能不同的是,期望未來的自由能還擁有作為某個理論相關量邊界的強大自然主義基礎。期望未來的自由能可以同時保持其信息最大化的指令和其理論基礎,因為它源于最小化KL散度,而不是最大化對數模型證據。
與期望自由能的關鍵區別在于似然項。期望自由能簡單地試圖最大化期望觀測的證據,而期望未來的自由能則最小化在真實生成模型下預測的觀測的似然1? 與在有偏生成模型下觀測的邊緣似然之間的KL散度。這種差異實際上等效于從期望自由能中減去一個額外的真實生成模型期望似然熵項 H [ Q ( o τ ∣ x τ ) ] 。因此,外在價值項鼓勵智能體選擇其行動,使得其對狀態的預測導致接近其偏好觀測的觀測,同時也試圖移動到那些觀測熵最大的狀態,從而引導智能體移動到生成模型對可能結果不太確定的狀態。實際上,除了期望自由能所缺乏的信息增益之外,期望未來的自由能還擁有另一個探索項。
![]()
由于期望未來的自由能和期望自由能在其內在價值項上是相同的,并且在外在項上有著深刻的相似性,我們相信期望未來的自由能可以作為許多主動推理智能體中期望自由能的一個相對直接的“即插即用式替代品”。此外,它比期望自由能具有更直觀的基礎,可以說是變分自由能向未來的更好延續,并且作為預測未來與期望未來之間散度的邊界,擁有強大的自然主義基礎。
6 討論
我們認為,此刻有必要從各種自由能的繁雜細節中抽身出來,評估一下我們已經取得的成果。首先,我們已經證明,不可能直接從作為模型證據邊界的變分推理目標中推導出認知價值。然而,從有偏生成模型與真實生成模型之間的散度出發,是可以推導出認知價值項的。為什么會這樣,對其深入的直觀理解是未來研究的一個有趣方向。將FEEF理解為期望未來與期望未來之間的散度,這一直覺也類似于強化學習問題的概率公式化表述(Attias, 2003; Kappen, 2005; Levine, 2018; Toussaint, 2009),后者通常試圖最小化受控軌跡與最優軌跡之間的散度(Kappen, 2007; Theodorou & Todorov, 2012; Williams, Aldrich, & Theodorou, 2017)。這些方案也通過其包含熵項的目標函數獲得了一定程度的(無向的)探索行為,而FEEF可以被視為將這些方案擴展到部分可觀測環境的一種方式。精確理解主動推理和自由能原理在數學上如何與這類方案相關聯,是未來另一個富有成果的研究方向。
直覺上,考慮到不確定性來源被正確量化,探索-利用困境的貝葉斯最優解應該直接源于將獎勵最大化視為推理的公式化表述中。然而,在這封信中,我們已表明,僅僅通過平均場分解的時間步來量化狀態和觀測中的不確定性,不足以推導出這樣一個解決困境的原則性方案,這一點從FEF抑制探索的行為可以看出。因此,我們相信,為了在主動學習的背景下推導出貝葉斯最優探索策略,使得我們必須選擇那些現在能給我們最多信息以便將來用于最大化獎勵的行動,這很可能既需要對多個相互連接的時間步進行建模,也需要涉及參數學習和更新規則的機制,并正確量化其中的不確定性。這超出了本信的范圍,但卻是未來一個非常有趣的研究方向。
FEEF與EFE的比較也引發了一個有趣的哲學問題,即關于主動推理形式體系中所采用的生成模型的數量和類型。對FEEF的一種解釋是從兩個生成模型的角度出發,但也可能存在其他解釋,例如一個單一的無偏生成模型與一個期望狀態和觀測的簡單密度之間的散度。同樣重要的是要注意到,由于推理和規劃需要不同的目標函數,EFE公式似乎也隱含地需要兩個生成模型:未來狀態的生成模型和未來中狀態的生成模型(Friston et al., 2015)。雖然數學形式相對直接,但如何將數學對象轉化為稱為“生成模型”的本體論對象這一哲學問題尚不清楚,這方面的進展將有助于確定主動推理的哲學地位,甚至可能有助于其神經實現。
我們的結果對主動推理研究的影響是多方面的。我們所展示的內容中沒有任何一點直接反對將EFE用作主動推理智能體的目標。然而,我們相信我們已經證明,EFE不一定是唯一甚至不是自然的目標函數。因此,我們遵循Biehl等人(2018)的觀點,鼓勵在主動推理中嘗試不同的目標函數。我們特別相信我們的目標函數FEEF具有前景,因為它具有直觀的解釋、與EFE大致等價的項、直接使用兩個生成模型而非僅一個單一有偏模型,并且與變分強化學習中使用的類似概率目標有緊密聯系,同時保留了EFE關鍵的認知屬性。此外,雖然在這封信中,我們主張將FEF而非EFE作為VFE向未來的直接擴展,但究竟哪一個泛函(如果有的話)實際上是自由能原理所要求的,這一邏輯要求仍然懸而未決。我們相信,闡明自由能原理對變分行動理論施加的確切約束,并更深入地理解各種自由能之間的關系,可能會揭示關于自組織系統中貝葉斯最優認知行動概念的深層問題。
最后,重要的是要注意,盡管在這封信中,我們只關注離散時間POMDP中的EFE和主動推理,但自由能原理最初的直覺和數學框架源于連續時間公式,與信息論和統計物理學的關注點 deeply interwoven(Friston, 2019; Friston & Ao, 2012; Friston et al., 2006; Parr et al., 2020)。因此,EFE、FEF和對數模型證據之間可能存在僅存在于連續時間極限中的深層聯系,這些聯系將為認知行動提供數學上有原則的起源。
7 結論
在這封信中,我們詳細審視了期望自由能的性質和起源。我們已表明,它并非變分自由能向未來的直接類比。隨后,我們推導了一個新的目標函數——未來的自由能,我們聲稱它是更自然的延伸,并展示了它缺乏期望自由能中有益的認知價值項。接著,我們證明了這一項在期望自由能中的出現直接源于其非標準的定義,因為期望自由能可以表達為僅僅是未來的自由能減去期望信息增益。考慮到這一點,我們隨后提出了另一個目標函數——期望未來的自由能,它試圖通過保留期望自由能中理想的尋求信息屬性,同時維持一個數學上有原則的起源,來兼得兩者之長。
原文鏈接:https://direct.mit.edu/neco/article/33/2/447/95645/Whence-the-Expected-Free-Energy
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.