網易首頁 > 網易號 > 正文申請入駐

自然·通訊：當環境“說謊”時，智能體如何做出可靠決策？

2026-01-17 14:32:28　來源: 集智俱樂部

北京舉報

分享至

導語

盡管智能體在實驗環境中表現亮眼，但一旦進入真實世界，只要訓練條件與環境稍有不一致，就可能出現“翻車”——輕則性能下降，重則做出災難性決策。如何讓智能體在未知、變化的環境中依然穩定可靠，是實現實際部署的關鍵難題。

這篇論文提出了分布魯棒自由能模型（DR-FREE），將自由能原理與分布魯棒優化相結合，把“應對不確定性”的能力直接寫進智能體的決策機制中。實驗結果顯示，在存在噪聲和分布偏移（如高斯擾動）的環境下，DR-FREE 依然能夠順利完成任務，而多種當前主流方法卻難以應對。這一工作不僅展示了智能體在現實不確定環境中的應用潛力，也為理解自然智能體如何在極少甚至沒有訓練的情況下適應復雜世界，提供了新的視角。

關鍵詞：分布魯棒自由能（Distributionally robust free energy，DR-FREE），決策制定，魯棒性（Robustness），自主智能體（Autonomous agents），主動推理

郭瑞東丨作者

王璇丨審校

論文題目：Distributionally robust free energy principle for decision-making 論文鏈接：https://www.nature.com/articles/s41467-025-67348-6 發表時間：2025年12月17日論文來源：Nature Communications

智能體在面對環境擾動時缺少魯棒性

近年來，人工智能在諸多領域取得了突破性進展，然而，即便是性能最先進的 AI 智能體，在策略魯棒性方面仍與人類存在明顯差距。人類往往能夠在幾乎沒有、甚至完全沒有訓練的情況下，，在復雜和充滿挑戰的環境中正常行動；相比之下，AI 智能體一旦脫離訓練條件，就很容易“失靈”。

造成這一差距的關鍵原因在于：AI 智能體學到的策略，通常高度依賴訓練階段所假設的環境模型。一旦真實環境與訓練模型之間存在哪怕很小的不匹配，策略性能就可能迅速下降，甚至完全失敗。例如，Atari游戲智能體假設訓練期間與實際測試時環境一致，如果這個假設不成立，學習到的策略可能會失敗。

這篇2025年12月17日發表在Nature Communication的論文，提出了DR-FREE模型，通過引入分布魯棒自由能原理和相應的求解引擎，可使得訓練出的智能體具有訓練/環境模糊性的魯棒性，從而在與訓練數據不同的環境中仍然能高效運行。

方法核心：從自由能到分布魯棒自由能

DR-FREE 的核心創新，建立在對經典自由能原理（Free Energy Principle）的擴展之上。經典自由能原理認為，智能體中的自適應行為源于變分自由能的最小化，其中智能體基于其可用環境模型通過最小化自由能獲得策略。然而，這一框架隱含了一個強假設——智能體的內部模型與真實環境是匹配的。在現實場景中，這一假設往往并不成立。DR-FREE 正是針對這一問題，對自由能原理進行了分布魯棒化擴展。

而DR-FREE中，自由能不再只針對單一的訓練模型進行最小化，而是在一個圍繞訓練模型的“模糊性集合”中進行優化。這一集合刻畫了訓練模型周圍所有“可能但不完全可信”的環境，其大小由模型的統計復雜性所決定。智能體需要在這些可能環境中，找到在最壞情況下依然表現穩健的策略。

圖1：傳統方法和DR-FREE的對比。圖1a描繪了傳統智能體的決策流程框架。智能體在隨機環境中導航，目標是到達目的地同時避開障礙物。在特定時間步k-1，智能體基于其對環境的模型以及觀察結果/信念（統稱為狀態Xk?1）來確定動作。圖1b揭示了訓練模型與智能體實際環境之間存在的不匹配問題，這種不匹配被定義為訓練/環境模糊性。圖1c展示了經典自由能最小化智能體的工作原理。在不考慮訓練/環境模糊性的場景中，智能體所處的環境與其內部模型完全匹配，智能體通過從最優策略中采樣來確定策略。與之對比的圖1d描述了DR-FREE的分布魯棒自由能原理。該方法將經典自由能原理擴展以考慮模型模糊性，通過在所有環境（屬于模糊性集合）上最小化最大自由能來識別魯棒策略。

圖2：DR-FREE的求解引擎。圖2a為DR-FREE原理的數學表述，其優化的目標函數分為統計復雜性項與期望損失項，這樣設計的目標函數，使之能夠在無限維概率空間中進行貝葉斯最優的不確定性和模糊性處理。圖2b詳細闡述了DR-FREE通過雙層優化方法，用于計算DR-FREE原理導出策略的求解方法。在給定當前狀態xk?1，求解引擎首先使用生成模型和損失函數，在所有模糊性集合中的可能環境上計算最大自由能，在獲得模糊性成本后，引擎在策略空間中最小化變分自由能，產生最優策略和成本函數。圖2c揭示了DR-FREE策略的具體生成機制和函數形式，展示了如何從數學原理轉化為可執行的決策規則。其中策略中的指數核包含三個關鍵成本組分，分別是動作成本：，直接懲罰不同動作的代價；模糊性半徑ηk(xk?1,uk），量化對訓練模型置信度的缺乏；模糊性成本：c(xk?1,uk），表示跨所有可能環境的最大自由能。

DR-FREE求解引擎的核心突破在于將原本的無限維自由能最大化問題轉化為標量凸優化問題，這使得算法可通過現有工具求解。

實驗驗證：從機器人導航到復雜環境測試

研究團隊在涉及真實機器人的實驗測試平臺上評估了DR-FREE（圖3a展示了實驗的物理平臺和智能體配置），這些機器人被訓練要求在避免障礙物的同時到達期望目的地的任務。為了驗證DR-FREE在測試與訓練數據不一致時的魯棒性，可用的訓練模型是從有偏實驗數據中學習得到的，這些數據沒有充分捕捉真實環境并引入了模糊性。圖3b對應導航任務中設計的非凸狀態獎勵函數。

圖3.DR-FREE在導航場景下的表現。

實驗表明，在模型存在顯著偏差的挑戰下，DR-FREE 是唯一能可靠完成導航任務的智能體，而忽視模糊性的傳統方法則普遍失敗（圖3c）。這一優勢在真實機器人平臺上得到了直觀驗證（圖3d）。

研究進一步揭示，DR-FREE 的決策邏輯具有可解釋的權衡機制：模糊性半徑如同一個“保守度”調節旋鈕。當模型可信時，策略會平衡目標與風險；當模型不確定時，策略則優先規避認知風險，甚至可能忽略物理障礙（圖3e）。

此外，DR-FREE 的數學形式還支持從行為反推其決策邏輯，能夠根據觀測數據重建出智能體內在遵循的代價函數（圖3f），這為理解和解釋智能體行為提供了新工具。”

“所有模型都是錯誤的，但有些是有用的。”DR-FREE 正是對這一觀點的直接回應。通過放松對訓練階段精確建模的依賴，DR-FREE 使原本因偏差而“不可用”的模型重新具備決策價值。進一步地，將DR-FREE與深度強化學習相結合，可在多智能體架構中引入更魯棒的異構智能體。憑借魯棒自由能最小化原理和求解引擎，DR-FREE的框架讓智能體可以從因為環境改變或觀測帶有誤差而表現較差的模型中恢復魯棒策略。

總結與未來方向

總體來看，DR-FREE支持貝葉斯信念更新，隨著模糊性增加，DR-FREE會降低了智能體可用模型在模糊性上的權重。其提供的策略，不止適用于人工智能體，也可能被自然選擇挑中用于生命應對異變且觀測模糊的環境，理論細菌可以在未知環境中導航，這種對生存至關重要的能力可在幾乎沒有訓練的情況下實現的。考慮到模糊性是跨心理學、經濟學和神經科學等領域的關鍵主題，DR-FREE可能為生物學上合理的神經解釋奠定基礎，解釋自然智能體如何在沒有或幾乎沒有訓練的情況下在挑戰性環境中魯棒地運行。

自由能原理與強化學習讀書會

自由能原理被認為是“自達爾文自然選擇理論后最包羅萬象的思想”，它試圖從物理、生物和心智的角度提供智能體感知和行動的統一性規律，從第一性原理出發解釋智能體更新認知、探索和改變世界的機制，從而對人工智能，特別是強化學習世界模型、通用人工智能研究具有重要啟發意義。

集智俱樂部聯合北京師范大學系統科學學院博士生牟牧云，南京航空航天大學副教授何真，以及驥智智能科技算法工程師、公眾號 CreateAMind 主編張德祥，共同發起「」，希望探討自由能原理、強化學習世界模型，以及腦與意識問題中的預測加工理論等前沿交叉問題，探索這些不同領域背后蘊含的感知和行動的統一原理。讀書會已完結，現在報名可加入社群并解鎖回放視頻權限。

詳情請見：

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.