網易首頁 > 網易號 > 正文申請入駐

第7章：從概率到行動《貝葉斯認知模型? 逆向工程思維》

2025-10-11 12:09:48　來源: CreateAMind

上海舉報

分享至

第七章：從概率到行動 《貝葉斯認知模型 逆向工程思維》

https://dokumen.pub/bayesian-models-of-cognition-reverse-engineering-the-mind-1nbsped-9780262049412-9780262381048-9780262381055.html

小結

本書的核心問題是歸納：如何從局部且含噪聲的數據中獲知世界的結構？然而，從生物體生存與繁衍的角度來看，任何此類學習若不能轉化為行動（即無法將知識與我們的價值觀結合以決定如何行動），都是無用的。貝葉斯決策理論為此問題提供了解決方案，指明了理性智能體應如何基于其信念采取行動。即便是簡單的決策，也可能涉及復雜的證據累積過程；當我們考慮相互依賴的序列決策時，這種復雜性會進一步加劇。盡管如此，認知科學家已在揭示人類決策背后數學原理方面取得了實質性進展，這些進展建立并補充了前幾章所述的概率建模的一般思想。隨著本書進入第二部分，我們將探討更復雜的模型以及在人類認知中的更詳細應用，而貝葉斯決策理論的原則將為連接信念與行動提供基礎。

到目前為止，本書主要關注歸納推理問題：即如何結合背景知識，從數據樣本中推斷環境、句子或類別的結構。然而，獲取新知識對一個智能體而言，其最終的實際價值僅在于它能否幫助指導有關行動的決策。例如，動物可能會對可能的食物進行分類，以決定是否應該食用；或者解讀一個逼近的陰影，以觸發戰斗或逃跑反應。關于環境狀態或自身身體狀況的感知推斷，可用于指導伸手動作、維持平衡或避免碰撞。關于物理裝置或計算機界面運作方式的因果推斷，將決定用戶如何實現其目標。在社會和經濟領域，對他人的動機進行推斷，可能決定對方是朋友還是敵人、知道或不知道某些信息以及其他因素，從而決定我們應如何與之互動。

從方法論角度看，理解決策過程同樣重要，因為絕大多數實驗數據記錄的都是決策所產生的行為。因此，當我們使用心理物理學方法研究知覺時，通常依賴被試的反應來表明他們看到了什么，或者某個刺激是否可見；而這些反應本身正是決策過程的結果。此外，通過觀察人們的決策，我們可以反過來推斷支撐這些決策的主觀概率。事實上，在實驗經濟學中，從觀察到的決策進行推斷是推斷個體主觀概率的主要方法——這種方法根植于關于理想理性智能體的理論成果，我們將在后文看到。因此，決策過程既可被視為大多數認知過程的最終目標，也可被視為窺探這些認知過程的媒介。

在本章中，我們將概述將世界概率表征轉化為理性行動所需的關鍵思想。這一主題本身足以占據整本書的篇幅，事實上也確實已有若干優秀著作（例如 Robert, 2007；Sutton & Barto, 2018；Russell & Norvig, 2021），我們在此推薦。我們的目標是提供對這些思想的入門介紹，其詳細程度足以使讀者理解本書后半部分所呈現的主題。我們首先介紹統計決策理論，該理論告訴我們理性智能體應如何在概率與獎勵之間取得平衡。接著，我們將探討這些獎勵應如何表征，引入效用函數的概念，并通過證據累積將這一方法與貝葉斯推斷聯系起來。許多現實場景并非孤立地做出單一決策，而是涉及一系列連續決策，這引導我們進入強化學習的主題。為了說明有關學習過程本身的決策，還需要對貝葉斯決策理論做進一步擴展。大腦并非被動處理接收到的任何數據，而是積極參與主動學習，將其有限的信息處理能力導向那些可能最具價值或最有趣的信息進行采樣和處理。本章最后，我們將探討貝葉斯決策理論（尤其是關于基本認知過程的理論，如檢測感覺信號、回憶記憶或規劃與執行運動）與心理學和行為經濟學中大量實證文獻之間看似存在的矛盾——后者似乎表明，人們的決策常常嚴重偏離理性行動。

7.1 最小化損失：統計決策理論

首先，我們考慮這樣一個問題：如果一個智能體擁有明確定義的主觀概率（當然，這些概率符合貝葉斯規則及其他概率定律），并且擁有一個可以用數值量化的明確目標，那么它應當如何行動？例如，假設一個人試圖在存在干擾物（以及感知系統自身噪聲）的環境中檢測微弱目標——比如短暫的閃光。假設我們在實驗室中研究這一檢測問題，進行一系列離散試驗，在每次試驗中，被試要么按下按鈕（表示目標出現），要么不按（表示目標未出現）。評估表現最簡單的方式或許是統計被試給出的正確與錯誤回答的數量及類型。正確回答有兩種：“擊中”（hit），即目標閃光出現且被試按下按鈕；“正確拒絕”（correct rejection），即目標未出現且被試未按按鈕。錯誤回答也有兩種：“漏報”（miss），即目標出現但被試未按按鈕；“虛報”（false positive），即目標未出現但被試按下了按鈕。

這類設置可通過統計決策理論（Berger, 1993）建模。出于歷史原因，在統計決策理論中，我們通常討論的是最小化損失，而非最大化目標。因此，應用最簡單的損失函數——0-1損失函數，我們可以為每個錯誤分配?1分，為每個正確回答分配0分。于是，我們假設的這個人的目標就可以建模為最小化總損失。當然，在選擇行動時，智能體尚不知道實際損失會是多少。因此，自然的策略是選擇使期望損失最小化的行動，其中期望基于當前的主觀概率計算得出。例如，在0-1損失函數下，在每次試驗中，只要給定感覺證據和先驗信息后目標出現的主觀概率大于1/2，智能體就應按下按鈕；如果概率小于1/2，則不應按按鈕；如果概率恰好等于1/2，則按或不按按鈕的期望損失相同，兩種選擇同樣好，可以任意決定。

7.1.1 不對稱損失函數

這類信號檢測任務長期以來一直被心理學家所研究（Green & Swets, 1966），其應用場景多種多樣，例如檢測短暫的閃光、指示敵機接近的雷達圖像，或可能提示癌癥的醫學掃描。一般來說，0-1損失函數會過于簡單：某些錯誤比其他錯誤重要得多。例如，“假陽性”——即一個人被錯誤地懷疑患有癌癥，進而接受進一步檢查——雖然令人煩惱；但“漏檢”——即一個實際患癌的人被忽略，因而未能獲得可能挽救生命的治療——則是一場災難。為應對這一情況，我們需要一種稱為“不對稱損失函數”的工具——它可以為兩種損失施加不同的懲罰（而“擊中”和“正確拒絕”仍保持零損失）。例如，在我們的癌癥檢測案例中，我們判斷“漏檢”所造成的損失應是“誤報”的1,000倍。為具體化，我們設這兩種損失分別為?1和?1,000。假設我們的先驗概率和掃描所得感官信息引導我們得出后驗概率p，即該人患有癌癥的概率，其中p是一個很小的數值，比如0.01。

我們有兩個行動選擇：宣布“陽性”或“陰性”的測試結果。如果我們堅持使用原始的0-1損失函數，宣布陽性結果的期望損失為 p·(0) + (1?p)·(?1) = p ? 1 = ?0.99。宣布陰性結果的期望損失為 p·(?1) + (1?p)·(0) = ?p = ?0.01。我們希望最小化期望損失，因此應當宣布測試結果為陰性（并可能將患者打發回家，不再安排進一步檢查）。但假設我們切換至不對稱損失函數，考慮到漏診癌癥遠比假陽性嚴重得多。此時，宣布陽性結果的期望損失仍是 p·(0) + (1?p)·(?1) = p ? 1 = ?0.99；但現在宣布陰性結果的期望損失變為 p·(?1000) + (1?p)·(0) = ?p = ?10。現在，即使給定陽性測試結果下實際患癌的概率相當低，通過宣布陽性結果，期望損失反而達到最小化。不對稱損失函數促使智能體偏向謹慎的一方，并更有可能進行進一步檢查，而不是直接讓患者帶著“健康報告”回家。

此類方法可在許多方面推廣。例如，目標未必僅僅是檢測某個目標，而是將其分類并做出適當反應（例如，吃成熟的水果、儲存未熟的水果、丟棄過熟或發霉的水果）。此時，類別與行動之間將形成一個收益矩陣，損失函數自然也不會是對稱的。吃發霉的水果比偶爾丟棄可能可食用的水果要嚴重得多。但同樣的方法——在給定智能體主觀概率的前提下，選擇使期望損失最小化的行動——仍然可以應用。

7.1.2 連續行動

在許多情境中，衡量表現的自然標準不僅取決于是否選擇了正確的行動類別，還取決于連續值行動的實數值精度。例如，在伸手抓取物體時，我們離目標有多近可能很重要。在其他情況下，我們的輸出可能不是物理動作，而可能是數值判斷：例如古董的市場價值、河流的長度或城市的人口數量。在統計學中，針對實數值輸出的兩個特別流行的損失函數是平方（或二次）損失函數，其損失為估計值y與目標值t之間的平方距離之和，(y?t)2；以及絕對值損失函數，其損失為估計值與目標值之間絕對距離之和，|y?t|。平方損失函數當然在統計學和機器學習中的回歸問題中被廣泛用作默認函數（參見，例如，Hastie, Tibshirani, & Friedman, 2009）。如果誤差為零，則這兩個損失函數均達到最小值：若行動或預測精確命中目標值，二次損失函數對大誤差更為敏感（因為這些誤差會被平方）。

從選擇行動的角度來看，這些損失函數是非常簡單的特例。現實世界行為中涉及的損失函數通常需要根據所考慮的具體行為量身定制。例如，在猜測一個小孩年齡時，從孩子被惹惱的角度看，“損失”在低估時可能很大，但在高估時較小。因此，最小化期望損失會鼓勵人們給出向上偏倚的估計。再假設我們的行動是在二手車交易中出價。如果智能體有一個基于汽車特征、賣家特性等因素的概率模型，用于預測賣家可能接受的最低價格，那么智能體應如何決定出價金額？在此情況下，損失函數也必須根據情境定制。如果我們出價太低，就無法買到車，不得不繼續尋找（產生時間和不便的成本）；如果我們出價太高，就會在財務上受損。貝葉斯決策方法要求我們將這些不同類型的損失置于同一尺度上，并選擇（此處指我們的出價）能使總體期望損失最小化的行動。而在現實中，故事因初始出價后可能伴隨后續議價等復雜因素而更加復雜。因此，盡管運用貝葉斯決策理論選擇行動在概念上很簡單——我們只需最小化期望損失——在實踐中卻通常非常復雜。因此，一個現實的認知模型通常會假設此類計算必須被近似處理，甚至大幅簡化。

在簡單的實驗情境中，這種決策方法能提供良好的行為模型。例如，Trommersh?user, Maloney, and Landy (2003) 要求參與者快速觸碰觸摸屏上的綠色目標（得分），同時避開附近甚至重疊的紅色目標（扣分）。實驗者可以測量

感知噪聲和（更重要的）運動噪聲在這項任務中的影響，大致對應于圍繞真實目標的一個高斯分布。在此情況下，參與者必須根據可用的得失權衡來選擇瞄準位置（如前所述，該任務完全可以重新表述為以損失為中心的形式，且形式上完全相同）。這項任務的精妙之處在于，通過對多次試驗的數據進行匯總，實驗者可以直接觀察參與者反應中的噪聲程度，并推斷他們實際瞄準的位置。結果表明，人們的行為可以通過假設他們在試圖最小化本任務中的期望損失得到良好預測——也就是說，他們會根據紅色目標關聯的損失程度，適當地“偏離”綠色目標中心進行瞄準。

7.1.3 偏離最優性

像這樣的結果對于一個貝葉斯行動模型而言似乎很有前景，事實上，確實存在大量關于在這一通用框架內運作的貝葉斯運動控制模型的文獻（例如，K?rding & Wolpert, 2006; McNamee & Wolpert, 2019）。然而，另一方面，在一些極其簡單的任務中，人們的行為似乎與最優貝葉斯反應顯著偏離。一個特別引人注目的例子是“概率匹配”現象（綜述參見 Vulkan, 2000）。在一個典型任務中，每次試驗燈光要么為綠色，要么為紅色，參與者必須猜測下一次試驗的顏色——獎勵通常是正確答案總數的總和。假設在現實中，綠色和紅色是由一枚有偏硬幣獨立投擲選出的，綠色的概率為 p，紅色的概率為 1?p。如果參與者能夠推斷出這一分布（或在某些變體中，還被明確告知其底層機制），那么貝葉斯選擇是直接明了的。假設參與者對下一次硬幣出現綠色的概率估計為 q（通常不完全等于真實的 p）。采用損失框架，我們為錯誤猜測分配 ?1 的損失，為正確猜測分配通常的 0 損失。那么，選擇綠色的期望損失恰好是紅色的主觀概率，即 1?q；而選擇紅色的期望損失則是綠色的主觀概率 q。鑒于目標是最小化損失，當 1?q < q 時（即當綠色的主觀概率 q 大于 1/2 時），我們應該始終選擇綠色；當 q 小于 1/2 時，應選擇紅色；若綠色與紅色的概率相等，則可任意選擇。這僅僅是以迂回方式陳述了一件看似完全顯而易見的事：如果我們認為綠色最可能是下一個項目，就應該總是選擇綠色；如果我們認為紅色最可能，就應該總是選擇紅色。

盡管這可能是顯而易見的策略，但在實驗中卻令人驚訝地很少被觀察到。例如，Shanks、Tunney 和 McCarthy（2002）發現，即使經過數百次試驗，并且在每50次試驗組成的區塊之后，人們都明確被告知他們表現如何，以及如果使用最優策略他們會做得有多好，也只有相當少的一部分人最終會持續選擇更有可能的選項。在許多實驗中，人們的選擇反而更好地由一個簡單模型捕捉——即他們以概率 q 選擇綠色，以概率 1?q 選擇紅色：也就是說，他們的反應“匹配”了每個結果的概率。關于概率匹配發生的確切條件及其解釋，已廣泛爭論。回顧我們在第6章描述的貝葉斯推斷抽樣近似方法，有趣的是注意到一種簡單的解釋是：人們通過從底層分布中抽取樣本來選擇紅色或綠色，而不是最小化期望損失（參見，例如，Vul、Alvarez、Tenenbaum & Black, 2009）。但目前關鍵的一點是，盡管該貝葉斯決策問題極其簡單，人們似乎系統性地未能解決它。

7.2 效用與信念

到目前為止，我們一直將損失函數視為給定。但人類行為試圖在特定情境中（甚至更廣泛意義上）優化什么（如果有的話）的問題，通常頗具挑戰性。只有在非常受限的情況下——例如在電子游戲中最大化得分——才存在明確且外在賦予的目標。但我們的日常生活要求我們在沒有任何外在給定、定義清晰的目標的情況下，選擇復雜的行動路徑，并且許多目標需要彼此權衡取舍。

讓我們后退一步。一般來說，決定做什么，如我們所指出的，部分取決于一個人的信念（關于外部世界，有時也包括其所包含的其他智能體的思想和可能行動）；而信念的形成以及構建這些信念所依賴的概念，一直是本書迄今為止的關注焦點。但決策不僅取決于一個智能體所相信的內容，還取決于它的欲望、目標或意圖，我們將使用籠統術語“效用”來指代這些內容。大多數規范性決策理論提出了一種相當嚴格的效用概念：即世界的每一個相關狀態 Si（可能作為某人行動的結果而產生），都與一個數值相關聯，代表該結果對該智能體的效用 U(Si)。

這里涉及一個相當簡化的效用概念。例如，一個智能體的效用可能并不純粹取決于其自身的福祉或實現自身目標的能力，也可能取決于他人的福祉，或達成某種純粹外在目標。沒有假設效用必須歸約為感官愉悅或擺脫身體疼痛（盡管這種觀點在早期功利主義經濟學家和政治哲學家如杰里米·邊沁、弗朗西斯·埃奇沃思和亨利·西季威克中很流行；參見，例如，Cooter & Rappoport, 1984），也可能由抽象目標決定；也沒有假設智能體必須意識到自己的欲望，或確實具有任何形式的意識。

在實驗室環境中，實驗參與者的客觀目標有時可以被外部指定：例如在游戲中的最大化得分，比如我們之前討論過的擊中綠色（并避開紅色）目標的實驗游戲。同樣，我們的表現可能基于我們能否在算術計算中給出正確答案、能否準確回憶實驗早期階段曾見過的列表中的哪些項目，或能否在嘈雜背景下正確判斷信號何時出現來評分。

在這種情況下，計算模型可以直接與效用相關聯，這些效用直接捕捉任務的結構——我們處于前一節所述的熟悉領域。但我們也可以在沒有外部給定目標的情況下，在建模思維和行為方面取得進展。

首先，讓我們注意，通常情況下，當我們選擇一個行動時，我們并不確定該行動會產生何種后果。事實上，如果每個行動只有一個可能的結果，那么選擇哪個行動將相當直接：只需選擇導致效用最大的結果的行動即可。標準的（雖然絕非唯一）選擇行動的方法是力求最大化期望效用——然而，至關重要的是，這種效用并非外在給定的標準，而是被假定反映智能體的目標。因此，考慮一個正在思考某個行動 a 的智能體。如果該智能體采取行動 a，它相信每個可能的世界狀態 s（該行動可能導致的結果）發生的概率為 P(s|a)。那么，行動 a 的期望效用 EU(a)，就是每個可能結果的效用之和，每個結果按其概率加權：

最大化期望效用原則提供了一個通用的決策標準，原則上適用于各種各樣的決策，并已被應用于覓食、投資、伴侶選擇、網球中的擊球選擇，以及其他許多決策情境。對于你可能采取的每一個行動，只需考慮該行動各種可能后果的概率和效用，從而計算出該行動的期望效用，然后選擇期望效用最大的那個行動即可。

然而，盡管這一決策公式在理論上極其通用且直接，但在實踐中卻未必容易遵循。我們將在接下來的章節中探討在構建決策認知模型時所出現的一些復雜性。第一個復雜之處在于：智能體所追求的、可被視為最大化目標的那個有意義的效用度量，其存在本身并不能被視為理所當然。我們接下來將轉向探討這一問題。

7.3 何時可以定義一個效用尺度？

貝葉斯決策方法認為，行為可以被理解為（哪怕是近似地）最大化期望效用。當然，這種方法只有在“效用”這一概念被明確定義的情況下才能展開。如前所述，在心理學實驗中，被試的目標通常被直接指定——例如，最大化得分數量，或盡可能減少錯誤次數。同樣，在生物學中的演化論證中（例如關于性別比例、擇偶或育兒策略的討論），某種形式的達爾文“適應度”（fitness）——或許是在基因層面而非整個生物體層面定義的——可作為一個有用的、外部給定的目標（Dawkins, 1978）。

但一般來說，人類行為所追求的目標并非預先指定的。事實上，人們通常擁有大量多樣的目標，這些目標似乎在爭奪其注意力。

因此，一名司機可能希望快速到達、安全駕駛、避免交通違規、安排會議，并向同事發送緊急消息。同時滿足這些目標可能很困難：諸如速度與安全等目標可能發生沖突，需要以某種方式相互權衡。

為了應用期望效用視角，我們需要能夠將各種約束和目標整合為一個單一的總體度量（一個效用尺度），反映每個目標的相對重要性。如果可以構建這樣一個總體效用尺度，那么從原則上講，司機的問題就變得清晰了：最佳行動序列是能帶來最大期望效用的那個序列。但這樣的效用尺度何時才能被定義？也就是說，需要對一個人的選擇施加哪些理性約束，才有可能用期望效用術語來解釋其行為（參見第2章，關于理性一致性約束的更廣泛討論）？

解決這一問題的一種天真方法是直接構造一個效用函數：例如，我們或許試圖在連續尺度上衡量每個目標，然后取它們的加權和作為我們的總體效用函數。但當然，這種方法不太可能成功捕捉智能體的偏好。例如，尚不清楚如何在可比較的尺度上衡量像速度、安全性和交通違規概率這樣性質迥異的目標，也不清楚它們應如何組合，以及每個目標應賦予多大權重。然而幸運的是，存在一些通用結果，僅通過觀察智能體偏好的結構，即可確立效用尺度得以定義的條件。

7.3.1 從偏好到效用

假設暫時忽略風險與不確定性問題，只考慮智能體在確定性結果之間的選擇，比如在已知食物、活動或消費品之間進行選擇。一個理想的理性決策者可能被認為遵循若干自然規則。例如，假設決策者可以在任意兩個結果 A 和 B 之間進行比較，要么偏好 B 勝于 A（我們記作 A ≤ B），要么偏好 A 勝于 B（B ≤ A），或者對二者無差異。

進一步假設決策者的偏好具有傳遞性：如果 A ≤ B 且 B ≤ C，則似乎合理地推斷 A ≤ C。這些“完備性”和“傳遞性”假設足以保證存在一個效用函數 U，該函數為結果 A、B 分配數值，使得當且僅當 U(A) < U(B) 時，A ≤ B 成立；而智能體在 X 和 Y 之間無差異，當且僅當 U(X) = U(Y)。

這個效用函數編碼了結果間的排序，從最偏好到最不偏好，但它并未捕捉這些結果間偏好的“強度”。只要順序保持不變，任何對這些數值的拉伸或壓縮，在選擇上都同樣有效——例如，當我們決定是選蘋果還是橙子時。唯一重要的是哪些項目具有更高（或更低）的效用值。這種僅依賴于順序的依賴關系體現在術語“序數效用”中——事實證明，最小化的序數效用概念為構建微觀經濟學的許多部分提供了充分基礎，例如市場定價中的供需理論（例如，Kreps, 1990）。

然而，從認知科學的角度來看，需要一種更豐富的效用概念。本書的主題是認知涉及處理一個不確定的世界，而概率理論提供了一個理解如何實現這一點的框架。相應地，我們需要一種能夠反映“我們的行動往往導致多種可能結果”這一事實的決策理論。例如，考慮一個簡單的動作，如拿起一杯咖啡：一方面，我們不想在這種簡單動作上花費過多的時間和精力；另一方面，當我們動作越匆忙，灑出咖啡的概率就會增加；在這種情況下，如同許多其他行動一樣，我們必須在努力程度與成功概率之間找到某種平衡。而要使這種權衡合理化，我們需要更多地了解我們對不同結果的偏好“程度”。

為簡化起見，考慮行動僅對應于在貨幣賭博之間進行選擇的情況（例如，設想我們的決策者正在賭場）。例如，一個人可以選擇確定獲得50美元，或有0.5的概率獲得0美元或100美元。若僅有一個序數效用尺度，我們只能說 U($100) > U($50) > U($0)，前提是接受“錢越多越好”的最小假設。但要判斷我們的決策者是否應該冒險賭博還是保守行事，我們需要知道 $100 的效用比 $50 高多少，相對于 $50 的效用比 $0 高多少。希望購買一張昂貴音樂會的最后時刻門票的決策者可能非常傾向于選擇100美元而非50美元或0美元，因為只有這個金額足夠買票；這樣的決策者可能會選擇冒險。而另一些決策者，只需5美元就能買披薩，可能恰恰相反，尤其不喜歡0美元的結果（可能導致他們挨餓）。簡言之，所需的是一個“基數效用”尺度：一個為每個狀態分配有意義數值的尺度，特別是，各狀態之間的效用差異可以被量化。

7.3.2 推導實數值效用

事實證明，我們將之前的完備性和傳遞性假設應用于賭博（而非確定性結果）時，再結合相當溫和的技術性假設，意味著這些賭博的結果可以與實數值效用相關聯，從而使得人們對這些結果所構成彩票的偏好可以通過這些彩票的期望效用來捕捉。

這樣的尺度，至少在原則上，可以從偏好中構建出來——前提是我們允許偏好范圍涵蓋賭博，而不僅僅是固定的確定結果。考慮以下程序：首先，選出當前考慮范圍內最差的可能結果 w 和最好的結果 b，并任意為這兩個結果賦予數值效用 U(w) 和 U(b)，當然，U(w) < U(b)。為具體起見且不失一般性，我們設 U(w) = 0，U(b) = 1，這樣所有被考慮狀態的效用值都將落在 [0, 1] 區間內。然后，選取任一其他結果 si，該結果優于 w 但劣于 b。根據任何相關選項均可進行有意義比較的假設（正如序數效用情形一樣），我們可以詢問：si 是否比一個以概率 pi 獲得最好結果 b、以概率 1?pi 獲得最差結果 w 的賭博更受偏好？如果 pi 足夠高，該賭博將被偏好；如果 pi 足夠低，則會被拒絕。對于每個 si，必然存在某個值 pi，使得天平達到平衡——即決策者對確定獲得結果 si 與面對一個以概率 pi 得到 b、以概率 1?pi 得到 w 的賭博無差異（我們將略去使這一推理嚴謹化所需的假設討論，以及這些假設是否合理的問題（Neumann & Morgenstern, 1944; Edwards, 1954; Kreps, 1988））。

如果我們對每個結果 si 都遵循此程序，那么相應的概率 pi 就提供了衡量這些結果優劣程度的實數值度量。最佳狀態 b 根據假設其值為 1（b 當然等價于一個以概率 1 獲得 b 的賭博）；最差狀態 w 的值為 0（因為該狀態等價于一個以概率 0 獲得 b、以概率 1 獲得 w 的賭博）。于是，與結果 si 相關聯的概率 pi 值越高，其效用就越高。實際上，這個值可以充當 si 的基數效用；它將使我們能夠確定決策者對結果及結果賭博的偏好。

從這個角度出發，我們該如何為一個任意賭博 g 分配效用呢？該賭博以概率 pg 產生結果 s1，以概率 1?pg 產生結果 s2？首先，我們將每個結果 s1 和 s2 與涉及最好和最差狀態 b 和 w 的等價子賭博相關聯，分別對應概率 p1 和 p2。我們稱這些賭博為“最優/最差混合”。那么，決策者應在我們的原始賭博 g 與一個以概率 pg 面對參數為 p1 的最優/最差混合、以概率 1?pg 面對參數為 p2 的最優/最差混合之間保持無差異（參見圖 7.1）。然而，假設賭博的好壞僅取決于其結果及其概率，那么我們可以將這個兩階段賭博壓縮成一個單階段賭博。具體而言，在兩階段賭博中，有兩種獨立方式可以獲得最佳可能結果 b：以概率 pg，我們面對參數為 p1 的子賭博并獲勝——這是一個概率為 pgp1 的序列；以概率 1?pg，我們面對參數為 p2 的子賭博并獲勝——這是一個概率為 (1?pg)p2 的序列。因此，獲得最佳狀態 b 的總概率是 pgp1 + (1?pg)p2；否則，決策者將面臨最差結果 w。于是，我們得到一個新的最優/最差混合，由最佳選項的概率 pgp1 + (1?pg)p2 參數化（否則，結果當然是最差選項）。這個概率可被視為衡量復合賭博優劣程度的一個指標——獲得最佳而非最差結果的概率越大越好。

將此推廣至具有多個結果的賭博，遵循相同的模式。一個有 n 個可能結果 s1, ..., sn 的賭博，其中第 i 個結果的概率為 P(si)，應等價于一個最優/最差混合，其概率為 Σi P(si)pi，其中 pi 是最優/最差混合的參數化，決策者視之等同于結果 si。

為了說明最優/最差混合中“獲勝”概率可用作效用的度量，讓我們粗略地將這些概率重寫為效用。也就是說，讓我們用 ui 替代 pi，于是賭博價值的公式不再為 Σi P(si)pi，而是 Σi P(si)ui。而這當然就是熟悉的期望效用公式：每個可能結果的效用，按其概率加權。

到目前為止，我們將基數效用等同于一個特定概率——在最優/最差混合中獲勝的概率——因此這些效用必然僅定義在 [0, 1] 區間上。但這種限制并非必要。若所有效用乘以任意正數，或向所有效用加上或減去任意常數，所有偏好都不會改變。也就是說，基數效用僅在正線性變換的意義下被定義——效用可以用實數軸上的任何部分來表示。用于表示效用的數字的絕對大小，以及這些數字是正還是負，都不重要；重要的是不同狀態效用之間的相對差異。

事實上，可以提供更普遍、更復雜的此類論證。給定關于我們假想決策者的偏好所提出的令人驚訝地最小化的相容性標準（盡管這些標準在現實中可能被人類和動物決策者違反），可以證明存在一組效用和主觀概率，使得決策者在簡單狀態或賭博之間的偏好完全遵循最大期望效用原則（例如，Savage, 1972）。具體的效用和主觀概率會因人而異——即使完全理性的智能體仍可能擁有不同的信念和偏好，從而做出截然不同的選擇。理性僅僅確保這些選擇在個體內部是一致的。

7.3.3 顯露偏好與認知科學

前一節所呈現的結果從方法論角度來看尤為有趣。它表明，只要掌握了足夠多關于理性智能體偏好的信息，我們就應該能夠推斷出該智能體分配給不同結果的效用和概率。在經濟學中，這一觀察構成了“顯露偏好”方法的基礎（進而擴展至概率；Samuelson, 1938; Savage, 1972）——即認為概率和效用是通過智能體的選擇行為揭示出來的，而非直接可測量的心理或神經屬性。從這一角度看，選擇行為被視為首要因素，而概率和效用僅僅是預測此類行為的便利理論變量。顯露偏好觀點被認為在經濟學（要求滿足最小一致性假設，以便推斷出便利的效用和概率尺度）與認知科學之間提供了關鍵區分。粗略地說，從這一觀點來看，經濟學只需關注人們“選擇”什么，而非他們“思考”什么。

這種顯露偏好式的論證被理解為暗示：在相當溫和的一致性及其他條件（我們在本討論中已略過）下，必須存在一種效用概念，使得理性決策者總是偏好具有最高期望效用的行動。正如我們在此處指出的，建立這一結果所需的條件未必總是適用于真實的人類或動物決策者。然而，無論怎樣，“選擇應由最大化期望效用決定”的原則，當一個合適的效用概念被明確定義時，已成為跨學科理性決策模型中的黃金標準，涵蓋經濟學和社會科學、行為生態學、人工智能（AI）以及認知科學。

我們應如何看待此類解釋？尤其在認知科學中，我們應如何看待理性解釋？采用傳統經濟學的立場，一種可能性是：我們將本書概述的貝葉斯分析類型視為僅聲稱心智（或大腦）的行為表現得如同它在進行概率計算：概率被認為是理論家的建構，而非對內部心理或神經狀態的描述。

雖然這確實可能是某些貝葉斯模型的恰當解釋，但也有可能概率（或許還有效用）是在心理層面被表征的，而行為不僅僅是“仿佛”大腦在執行貝葉斯計算并計算最大期望效用，而是這種計算的真實產物。從這一視角看，大腦之所以能表現得像一個概率推斷和期望效用最大化引擎，恰恰是因為在某些領域至少它本身就是一個概率推斷和期望效用最大化引擎。而且，正如我們在第6章所看到的，概率推斷無需通過概率理論數學公式的符號操作精確執行，而是可以通過近似方法（如抽樣）實現。在下一節中，我們將探討如何通過簡單的心理和神經機制來實現積累證據以做出簡單決策的問題。

7.4 證據的累積

讓我們考慮一個具體的例子，說明我們如何可能超越“仿佛”（as if）的觀點。如前所述，也許最簡單的決策類型之一——也是心理學家廣泛研究的一種——是信號檢測。一個人被指示，在每次試驗中，如果出現短暫閃光，則回答“是”，否則回答“否”（Green & Swets, 1966）。最優策略是在后驗概率超過某個由不同結果所造成的損失決定的閾值時，才說“是”。我們也可以在第7.3節引入的期望效用框架內推導出這一最優策略。

例如，假設參與者每次正確檢測到信號可獲得5美分獎勵，在出現虛報時損失50美分，其他情況則無所得（即0美分）。在此機制下，參與者很可能表現得極為猶豫。假設在某次特定試驗中，參與者估計信號存在的概率為 q。那么，他們選擇說“是”的期望效用為 qU(5￠) + (1?q)U(?50￠)。相比之下，選擇說“否”的期望效用為 U(0￠)；為方便起見，我們可以設 U(0￠) = 0（這在不失一般性的情況下是可行的，因為效用尺度僅在正線性變換的意義下被定義）。因此，當 qU(5￠) + (1?q)U(?50￠) > 0 時，選擇“是”選項會帶來嚴格更高的期望效用，前提是 U(?50￠) 的絕對值遠大于 U(5￠) 的絕對值（大致來說，損失50美分比獲得5美分要糟糕得多），此時該不等式僅在 q 較高時才成立。在效用是金錢的線性函數這一特殊情況下，損失50美分恰好比獲得5美分糟糕10倍，簡單代數運算表明，“是”反應只有在 q > 10/11 時才具有嚴格更高的期望效用。請注意，我們之前在最小化損失函數時已見過這種類型的解釋——但在這里，當然，我們將問題視為最大化效用。然而，正如我們已經看到的，實際上并無區別：最大化效用與最小化等于該效用負值的損失函數完全相同。

信號檢測理論已被證明是一種高度有效的描述模型，適用于廣泛的心理物理任務。傳統上，它從經濟學中盛行的“顯露偏好”立場出發進行解讀（即，僅假設實驗參與者的實際行為在描述上符合該理論）。但事實證明，信號檢測模型也可自然映射到一種簡單的計算機制——擴散模型——該模型能夠捕捉隨著時間推移，支持某一決策而非另一決策的傾向如何逐漸積累（Ratcliff, 1978; Usher & McClelland, 2001; Bogacz, Brown, Moehlis, Holmes, & Cohen, 2006; Brown & Heathcote, 2008; Ratcliff, Smith, Brown, & McKoon, 2016; Forstmann, Ratcliff, & Wagenmakers, 2016）。

從貝葉斯的角度來看，這些模型可以被視為在累積支持某一決策相對于另一決策的相對證據強度（例如，支持“信號存在”或“信號不存在”的證據）。或者，以一個已成為重要實驗任務的例子為例（Newsome & Pare, 1988; Britten, Shadlen, Newsome, & Movshon, 1992; Mulder, Wagenmakers, Ratcliff, Boekel, & Forstmann, 2012），假設我們必須判斷電腦屏幕上短暫呈現的一個嘈雜隨機點陣圖案是整體向左還是向右流動。

隨著處理的數據越來越多，總和將逐漸向證據最支持的假設方向漂移。11

當隨機游走觸及一個預定義的邊界——該邊界表示觸發決策所需的證據強度——時，便做出選擇。這些邊界的定位將反映決策中涉及的效用。在標準的信號檢測實驗中，這些效用將由擊中、漏報和虛報所對應的分數或金錢回報的不同數量塑造。當然，對于現實世界的決策，也會出現同樣的考慮。例如，如果一個人或動物在覓食時必須決定一種真菌是蘑菇還是毒蕈，那么需要相當多的證據才能將其視為可食用的蘑菇；而哪怕只有一點點懷疑它可能是毒蕈（即有毒），就足以讓這種真菌被棄置一旁。決策邊界位置的這種不對稱性，捕捉了這樣一個事實：吃蘑菇所帶來的效用增益與中毒所導致的效用損失相比是微不足道的（當然，在極端情況下，比如瀕臨饑餓時，危險食物的期望效用甚至可能大于完全不吃任何食物）。

無論是否從貝葉斯角度解釋，擴散模型在心理學的許多領域都被廣泛使用，并且在定量上取得了成功，用于建模感知、分類、運動啟動和識別記憶等多個方面（例如，Hanes & Schall, 1996; Lamberts, 2000; Ratcliff, 1978; Smith & Ratcliff, 2004）。這些模型的一個吸引力在于，它們能對反應時間分布、速度-準確性權衡、報酬變化敏感度以及信心判斷提供細致入微的預測（Pleskac & Busemeyer, 2010; Berg et al., 2016）（參見圖7.2右側面板，了解反應時間分布是如何生成的）。請注意，如前所述，此類模型僅限于在成對選項之間做決策；已有多種推廣被提出（例如，Usher & McClelland, 2001）。

大腦是否通過實現此類擴散模型來累積感覺證據并做出簡單決策，從而為貝葉斯計算的神經實現提供證據？一項涉及猴子神經記錄的重要研究線表明這可能是真的（Gold & Shadlen, 2007）。在一個典型實驗中，猴子被呈現如上所述的隨機點運動檢測任務；并且如果它在每次試驗中朝流動方向移動眼睛，則會獲得獎勵。結果發現，猴子大腦中某些神經元群體（位于外側頂內皮層）的放電率似乎緊密追蹤著證據的權重（例如，Gold & Shadlen, 2002），而不是，例如，是否即將做出決策或做出哪一個決策（盡管這類累積機制與選擇之間的因果關系已被質疑；Katz, Yates, Pillow, & Huk, 2016）。更廣泛地說，一個將神經活動映射到感知和運動任務中證據累積與決策機制的研究子領域，作為“大腦正在執行近似貝葉斯計算”這一總體觀點的一部分，已取得了富有前景的成果（例如，De Lafuente, Jazayeri, & Shadlen, 2015; Knill & Pouget, 2004; Pouget, Beck, Ma, & Latham, 2013）。

7.5 序貫決策

簡單的決策，例如判斷信號是否存在，或判斷隨機點圖案是向左還是向右流動，是實驗和建模的有吸引力的起點。但當然，大腦面臨的決策在各種維度上具有大得多的復雜性。我們通常必須在本身高度復雜的選項之間進行選擇（例如，選擇一棟房子、一件藝術品、一首音樂或一位可能的朋友），評估感官和語言證據的過程也可能任意復雜（例如，在識別、理解及評價一個物體、場景、藝術品或人時）。然而，在這里，我們關注的是決策復雜性的一個特定且研究充分的方面：如何選擇一系列行動，或制定如何行動的策略。這一點至關重要，因為單個行動通常除了在后續行動的背景下之外，并沒有明確定義的價值。現在儲蓄而非花錢可能有利——但如果決策者隨后將積蓄揮霍在賭博上則不然。同樣，松鼠為冬天儲存食物只有在它日后能夠取回時才有益；為考試學習只有在你打算參加考試時才有意義；伸手去拿一杯水只有在你打算抓住它時才有意義，等等。一般來說，我們的行動——無論是人生規劃還是個體的運動行為——只有當各個組成部分行動屬于一個更大、連貫的框架時才有意義。這在學習過程中造成了特殊問題，即哪些行動應被采取，因為智能體所接收的獎勵或懲罰流取決于許多行動的組合，而且通常很難確定應修改哪個單獨的行動以改進未來的決策。接下來，我們將探討一些有趣且特殊的案例，這些案例在機器學習以及認知和腦科學領域都受到了相當大的關注。我們首先在摘要中概述關鍵的數學思想——之后，我們將討論它們在認知和行為模型中的多種應用方式。

7.5.1 序貫決策問題

與采取行動序列相關的問題在規劃和強化學習領域的文獻中得到了最廣泛的研究。序貫決策的基本模型是離散馬爾可夫決策過程（MDP）（Puterman, 1994），它假設存在一個環境的離散狀態集合 S，一個智能體可以在該環境中采取的離散動作集合 A；一個轉移函數，用于定義給定先前狀態和動作后下一狀態的分布 T(s, a, s′) = p(st+1 = s′ | st = s, at = a)；以及一個單步獎勵函數，將狀態-動作組合映射到正或負實數 R: S × A → ?。因此，在一個簡單的紙牌游戲中，環境的狀態可能只是牌在各玩家之間的分布；智能體的動作可能是再抽一張牌（twist）或不再抽牌（stick）；轉移函數將決定新牌局的狀態（這取決于從牌堆中抽出哪張牌）；而獎勵函數可能是某人手牌所代表的分數總和（可能如龐托恩游戲中那樣，如果總分超過某個閾值，則得零分）。因此，玩家面臨的挑戰是決定何時停止抽牌，以最大化可能的得分結果。

在MDP的背景下，智能體的行為被概念化為一種刺激-動作映射或策略，形式化為一個將狀態映射到動作的函數 π: S → A。因此，在紙牌游戲中，一個策略會為每種牌的分布指定應采取的動作（例如，動作可能包括從桌上拿一張牌、扔掉一張牌、什么都不做等，具體取決于正在玩的游戲）。12

序貫決策中出現的第一個問題是預測問題（也稱為策略評估）：給定一個策略和一個初始狀態，長期遵循該策略能獲得多少獎勵？具體而言，假設我們從初始狀態 s? 開始，反復根據策略 at = π(st) 采取行動，計算獎勵 rt = R(st, at)，并從轉移函數中采樣一個新的狀態 st+1 ~ T(st, at, ·)。這生成了一條軌跡或展開路徑 ?s?, a?, r?, s?, a?, r?, ...?。這樣的軌跡會產生多少長期獎勵？雖然對“長期獎勵”由什么構成有不同定義方式，但一種具有優良數學性質的標準方法是使用與某一狀態相關聯的期望累積折扣無限獎勵和（即價值），其表達式為：

值得強調的是，MDP 模型中獎勵（reward）與價值（value）之間的區分，以一種重要且與認知相關的方式豐富了標準的期望效用概念。具體而言，獎勵函數刻畫了決策者如何為世界狀態賦予內在效用（intrinsic utility），例如饑餓動物眼中的食物1?。另一方面，價值函數則對應于一種由獎勵、環境以及未來行為共同衍生出的效用。正如我們將在第 7.5.4 節進一步討論的那樣，這使得 MDP 模型在建模序貫決策情境中的學習與計算方面尤為有用。

序貫決策中出現的第二個問題是最優控制（optimal control，也稱為策略優化，policy optimization）：給定一個 MDP，什么樣的策略能夠最大化價值？找到具有最大價值函數的策略，通常就是所謂“求解”一個 MDP 的含義。然而，這引出了一個新的問題：既然策略和價值函數都是定義在狀態上的函數，那么我們所說的“最大”函數究竟指什么？是指在某些特定狀態上具有最高價值？任意狀態？還是所有狀態？幸運的是，無限折扣 MDP 具有一個吸引人的數學性質：存在一個唯一的最優價值函數，它在所有狀態上都具有最高價值（盡管最優策略可能不唯一，因為不同動作的價值可能相等）。

此外，這個最優價值函數也可以簡潔地表示為一組遞歸的貝爾曼最優性方程（Bellman optimality equations）：

這里的直覺是：一個狀態的價值，取決于我們選擇最佳動作所能實現的價值——而該動作會產生某種即時獎勵，并根據概率性的轉移函數將我們帶入一個新的狀態，而這個新狀態本身也具有其自身的價值。因此，我們可以遞歸地將當前狀態與未來狀態的價值聯系起來。

貝爾曼最優性方程表達的是狀態的價值，但我們通常也對另一個密切相關的問題感興趣：即在某個特定狀態下采取某個動作的價值（假設從此以后我們都采取最優行動）。這一量通常被稱為 Q 值（“Q” 表示 “quality”，即“質量”），其對應于：

一旦我們掌握了 Q 值（或某種能從 R、T 和 V* 快速計算它們的方法），任何在每個階段都選擇具有最高（或并列最高）Q 值動作的貪婪策略，就是一個最優策略：

總而言之，馬爾可夫決策過程（MDP）提供了一種對基本序貫決策任務進行建模的方法，而對長期獎勵或價值進行建模的一種標準方法是期望的、累積的、帶折扣的無限和模型。該模型使我們能夠簡潔地定義兩個計算問題：預測（prediction），即在不同狀態下評估一個策略；以及最優控制（optimal control），即尋找一個能最大化價值的策略。當然，擁有貝爾曼方程是一個良好的開端——但我們實際上需要以高效的方式求解這些方程，才能評估策略并確定哪個策略是最優的。在接下來的章節中，我們將討論來自規劃（planning）和強化學習（reinforcement learning）領域的算法，這些算法在不同的初始假設下能夠解決這些問題。

7.5.2 已知模型下的預測與控制

在已知獎勵函數 R(s, a) 和轉移模型 T(s, a, s′) 的前提下，存在若干用于預測和控制的算法。在已知獎勵和轉移模型的情況下進行控制，通常被稱為“規劃”（planning）。

一大類序貫決策算法基于動態規劃（dynamic programming）。在動態規劃中，我們假設可以訪問完整的狀態空間，并通過向后歸納法計算價值函數，即反復將未來狀態的價值回推到潛在的前驅狀態，直到所有狀態的價值收斂為止。具體而言，從一個初始價值函數 V? 開始，我們根據第 k 個價值函數（應用貝爾曼最優性方程）計算第 k+1 個價值函數。在策略評估的情形下，這是：

請注意，當計算最優價值函數時，值迭代并不要求我們顯式地表示策略。

動態規劃和值迭代構成了許多其他序貫決策算法的理論基礎，包括時序差分學習算法（在7.5.3節中討論）。此外，值迭代與啟發式搜索算法之間也存在聯系——當獎勵函數 R 和轉移函數 T 已知但狀態空間 S 過大而無法完全枚舉時，這些啟發式搜索算法被用于規劃。在典型的啟發式搜索算法中，我們假設給定一組初始狀態 S? ? S，并可根據轉移函數 T 通過檢查后繼狀態來構建一個狀態轉移圖。一種方法是在擴展轉移圖與求解該圖上的最優解之間交替進行，并利用所得解指導下一輪擴展。在圖構建過程也由可接受啟發式（即始終低估從某狀態出發的總成本）引導的情況下，這一過程可被分析為一種在動態變化的狀態子集上進行的異步值迭代，該子集保證收斂到針對初始狀態的最優策略。這種看待啟發式搜索的方式，為經典的確定性規劃算法（如 A* 算法（Hart, Nilsson, & Raphael, 1968））以及 MDP 規劃算法（如 LAO*（Hansen & Zilberstein, 2001））和基于樹搜索的算法（Kocsis & Szepesvári, 2006）提供了一個統一的視角。更多細節請參見 Ghallab, Nau, and Traverso (2016)。

該過程可以反復迭代，直至達到一個不動點（但請注意，動作之間的關聯必須以一致的方式打破，否則算法可能會在等價策略之間循環而永不收斂）。令人欣慰的是，或許也令人驚訝的是，可以證明所得策略是全局最優的（Sutton & Barto, 2018）。

本節回顧的用于序列預測與控制的算法，在獎勵函數和轉移函數已知時方可使用。然而，通常情況下我們并不完全了解序列決策問題的形式，因此需要推斷出至少其中一個量。接下來我們將轉向一類適用于一個或兩個函數未知情形的算法。

7.5.3 帶有未知模型的預測與控制

當環境模型未知時，我們如何評估策略或找到最優策略？這正是強化學習算法所設計應對的情形。當前的方法可分為兩類：無模型方法（model-free approaches），旨在不顯式估計 R(s,a) 和 T(s,a,s′) 的前提下估算或優化價值函數；以及基于模型的方法（model-based approaches），旨在從環境中構建一個模型，再利用諸如第7.5.2節所述的方法計算價值（Sutton & Barto, 2018）。通常，模型估計很大程度上歸結為本書中已詳細討論過的無監督學習問題——如估計概率密度、推斷潛在變量、構建圖模型——因此此處的重點將放在無模型方法上。

我們可以使用與此處給出的TD預測更新規則類似的論證來理解這一更新規則。具體而言，右側的第二項代表一個由學習率加權的預測誤差。只要α隨時間適當減小，隨著迭代次數的增加，將收斂到真實的Q*(s, a)。此外，一個有用的

Q學習的一個特性是它是離策略的（off-policy）：也就是說，Q*(s, a) 的估計獨立于智能體所遵循的策略，因此可以基于任何狀態、動作和獎勵序列進行估計，只要狀態/動作空間有足夠的覆蓋。

7.5.4 強化學習與認知科學

規劃與強化學習的形式化方法之所以有用，是因為它們提供了一個統一的規范性框架，用于從估計或最大化價值的角度理解適應過程。特別是，由于所有正確的強化學習算法在設計上都會收斂到一個明確定義的價值函數，因此它們繼承了一些先驗的規范性依據，可作為生物學習的潛在模型。選擇特定算法（例如，基于模型的學習與無模型學習）反映了對可用計算權衡或機制的不同假設。

從歷史角度看，強化學習領域的發展是一個絕佳的例子，說明嘗試工程化和逆向工程智能系統如何能促進跨不同分析層次的科學洞見的富有成效的交流。最早的強化學習算法是心理學模型，它們形式化地描述了巴甫洛夫條件反射中的行為模式（例如，Bush & Mosteller, 1955; Rescorla & Wagner, 1972）。后來人們意識到，這些機制可以被重新表述為動態規劃（Bellman, 1957）和TD學習（Sutton & Barto, 1987）的規范性框架。這些基本思想構成了過去數十年中關于順序決策情境下學習研究的基礎，并在過去十年中促成了人工智能領域的多項突破（例如，在Atari視頻游戲、國際象棋和圍棋等游戲中超越人類；參見Mnih et al., 2015; Silver et al., 2016）。

對于認知科學家而言，強化學習算法背后的原則為理解人類及其他物種的適應提供了關鍵洞見。在這里，我們回顧若干研究線索，從將TD預測與巴甫洛夫條件反射聯系起來的認知簡單模型開始，逐步過渡到更復雜的任務層級和基于模型的規劃模型。

巴甫洛夫條件反射與TD預測在巴甫洛夫（或經典）條件反射中，有機體學習一種無條件刺激（本身具有內在獎賞性，例如口渴狗的水）與條件刺激（例如，可靠預示水聲的鈴聲）之間的關聯。在強化學習框架中，無條件刺激對應于具有正獎勵的狀態（sUC, R(sUC) > 0），而條件刺激對應于沒有獎勵但可靠過渡到無條件刺激的狀態（sC）。條件刺激的估計值（V(sC)）隨后對應于無條件刺激與條件刺激之間的聯想強度，而TD預測（公式(7.15)）則刻畫了給定有機體經驗時建立適當關聯的學習動力學。盡管其學習規則很簡單，基本的TD算法卻能解釋經典條件反射中研究的廣泛學習現象（Sutton & Barto, 1987）。此外，神經科學的研究描繪了一幅引人入勝的畫面，說明TD學習在大腦中是如何實現的：TD學習所描述的獎勵預測誤差δ被發現對應于中腦多巴胺神經元的瞬態活動，并為突觸修飾提供全局信號（Schultz, Dayan, & Montague, 1997; Glimcher, 2011）。這些結果代表了在Marr提出的三個分析層次（在第1章討論）上的顯著趨同：價值估計問題（計算層面）、TD預測/隨機近似（算法層面）以及瞬態多巴胺（實現層面）。

操作性條件反射、控制及基于模型與無模型學習盡管經典條件反射涉及從觀察序列中形成狀態間的價值關聯，操作性（或工具性）條件反射則涉及通過試錯在不同狀態與動作之間形成價值關聯（Thorndike, 1898）。具體而言，在操作性條件反射實驗中，有機體在某一狀態下采取行動（例如，燈亮時按壓杠桿），然后出現可能帶來獎賞或懲罰的結果（例如，出現食物顆粒）。這類場景，尤其是當它們涉及擴展的狀態、動作和獎勵序列時，特別適合在強化學習框架內建模。

正如我們前面提到的，強化學習算法空間中最重要的一種二分法之一在于基于模型與無模型學習之間。回憶一下，在基于模型的強化學習中，有機體學習環境的模型（即轉移函數和獎勵函數），然后利用該模型計算價值函數。基于模型的強化學習被認為對應于人們在環境中進行深思熟慮推理以決定何種行動最合理的情形（例如，Daw et al., 2005）。相比之下，在無模型強化學習中，有機體直接學習價值函數（例如，使用Q學習）。至關重要的是，從算法角度看，基于模型的學習比無模型學習更具靈活性，但也更耗費認知資源，因為它需要隨著轉移和獎勵估計的更新而重新計算價值函數。此外，值得注意的是，基于模型/無模型學習的區別可以映射到熟悉的心理學區分——目標導向行為與習慣性行為之間（Wood & Rünger, 2016），盡管這不是形式化這種區別的唯一方式（Dezfouli & Balleine, 2013; Miller, Shenhav, & Ludvig, 2019）。

理論上，基于模型和無模型學習機制在計算和概念上是截然不同的，但在真實的生物系統中，這兩個過程很難完全分離（Doll, Simon, & Daw, 2012）。在過去的二十年里，在研究這些不同學習和控制形式及其神經基礎的算法交互方面取得了相當大的進展。例如，雙步任務（Gl?scher, Daw, Dayan, & O’Doherty, 2010）是一個簡單的馬爾可夫決策過程，包含兩個選擇階段和一個結果階段，其狀態獎勵會隨著時間推移發生漂移。選擇階段與結果階段狀態之間的轉移是隨機的，但高于機會水平，這意味著如果參與者學會某個結果階段具有最高獎勵，他們便可以采用基于模型的規劃以達到該結果狀態。然而，參與者也可能僅僅回退到由無模型策略提供的單步價值估計，這在最初對新獎勵信息不敏感。在遇到新獎勵信息的關鍵試驗中，基于模型和無模型學習會導致發散的價值更新，從而提供了區分人們算法策略的機會。諸如此類的范式常被用來研究基于模型和無模型學習如何競爭行為控制（Gl?scher, Daw, Dayan, & O’Doherty, 2010），以及它們如何體現不同的算法與機制權衡（Otto, Gershman, Markman, & Daw, 2013; Daw & Dayan, 2014; Solway & Botvinick, 2015），以及它們如何能夠協同作用（Kool, Gershman, & Cushman, 2017; Kool, Cushman, & Gershman, 2018）。

分布強化學習標準強化學習算法使用狀態、動作和獎勵樣本形成價值函數的點估計，但近期關于分布強化學習的工作探索了明確將價值表示為可能回報上的分布（Bellemare, Dabney, & Munos, 2017; Dabney, Rowland, Bellemare, & Munos, 2018; Bellemare, Dabney, & Rowland, 2023）。乍一看，為什么用值的分布表示會比僅表示期望值更有益并不明顯——畢竟，在選擇具有不同值分布的動作時，我們將計算并比較期望值。然而，實踐中，值分布已被證明能提供更豐富的近似目標，從而促進表征學習（例如，使用神經網絡），緩解策略變化時的學習影響，并支持更廣泛的下游行為以及泛化能力（Bellemare et al., 2017）。分布方法在深度強化學習中的成功促使人們探究大腦是否編碼價值分布：Dabney等人（2020）表明，不同的多巴胺神經元似乎跟蹤不同水平的價值（因此共同編碼了價值分布），并在學習過程中表現出一系列正面和負面的獎勵預測誤差。這些結果豐富了大腦如何實現標量獎勵預測誤差的經典圖景。

獎勵設計與塑造在標準強化學習問題中，我們被賦予一個獎勵函數并必須找到一個最優策略。但我們也可以反向思考：給定一個期望的策略，尋找一個獎勵函數，當其被最大化時，會產生一個匹配期望策略的最優策略。這被稱為獎勵設計問題（Singh, Lewis, & Barto, 2009; Sorg, Singh, & Lewis, 2010），并出現在許多重要場景中。一個例子是獎勵塑造，我們旨在增強現有獎勵函數，使得最優策略得以保留，同時加速學習。例如，如果我們希望激勵一個強化學習代理到達目標狀態，我們可能不僅希望在到達目標時提供單一獎勵，因為那將提供一個極其稀疏的學習信號。相反，我們希望為目標達成之前的中間步驟提供額外的塑造獎勵，以促進更快的學習。強化學習的一個重要成果是塑造定理（Ng, Harada, & Russell, 1999），它提供了塑造函數的必要且充分條件，確保它們不會改變最優策略（具體來說，它們應取“勢函數”的形式）。塑造定理可用于設計獎勵函數，使人們能夠實現長期目標但獲得更多的中間反饋（Lieder, Chen, Krueger, & Griffiths, 2019）。然而，也已發現，當扮演教師角色時，人們并不會簡單地提供符合塑造定理的評估反饋。例如，人們會無意中激勵強化學習算法遵循“正向獎勵循環”，在這種情況下，算法系統性地偏離目標行為以獲得糾正該偏差的獎勵，接著進一步偏離和糾正（并獲得進一步獎勵），可能無限循環下去（Ho, Cushman, Littman, & Austerweil, 2019）。

此外，在強化學習框架中，獎勵是所有適應與學習背后的驅動力，這促使一些研究者提出：最大化一個獎勵信號就足以解釋所有智能行為（Silver, Singh, Precup, & Sutton, 2021）。獎勵設計的視角使我們能夠將這一論點表述為一個定義明確的問題：給定某種適當明確指定的智能行為，是否存在一個獎勵函數，使得在最大化該函數時能產生目標行為？Abel 等人（2021）針對馬爾可夫獎勵函數（即獎勵定義在狀態-動作-下一狀態三元組 s,a,s′上）在馬爾可夫決策過程（MDP）中的情形分析了這一問題，并發現：對于以策略集合形式定義的行為（這是單一最優策略的推廣），這類獎勵函數可能并不存在。例如，在一個網格世界中，若狀態空間對應于網格中的位置，則行為規則“始終朝同一方向前進”無法通過任何馬爾可夫獎勵函數來表達。這些結果的一個重要啟示是：對于給定的 MDP，某些類別的獎勵函數在表達能力（expressivity）方面并非總是顯而易見的。此類發現推動了關于學習和優化非馬爾可夫獎勵函數的持續研究（Vazquez-Chanlatte, Jha, Tiwari, Ho, & Seshia, 2018；Icarte, Klassen, Valenzano, & McIlraith, 2018）。

表征與強化學習 將潛在狀態推斷與強化學習相結合，是建模學習、決策與表征之間相互作用的一種方法，但并非唯一方法。有機體如何編碼狀態或動作，會對其他過程產生影響，例如探索行為或內部決策算法本身（Ho, Abel, Griffiths, & Littman, 2019）。例如，基于模型與無模型學習之間的區別，與其說是純粹算法層面的差異，不如說同樣關乎表征：在基于模型的學習中，價值函數是利用所學得的轉移函數表征計算得出的；而在無模型學習中，價值函數是直接學習得到的，并不依賴于對轉移函數的獨立表征（Sutton & Barto, 2018）。

關于選項的使用問題，有關人類分層強化學習的研究已探討了人們如何在多個抽象層級上學習動作價值（Eckstein & Collins, 2020），他們如何通過無模型機制學習選項價值（Cushman & Morris, 2015），以及選項內預測誤差如何在神經層面實現（Botvinick, Niv, & Barto, 2009; Ribas-Fernandes et al., 2011）。關于選項的發現問題，已有若干提案被提出，包括基于策略壓縮的方法（Solway et al., 2014）、貝葉斯推斷方法（Tomov, Yagati, Kumar, Yang, & Gershman, 2020）以及資源合理性方法（Correa, Ho, Callaway, & Griffiths, 2020）（參見第13章）。盡管如此，關于人類如何以及為何獲得特定的分層動作表征——以及如何最好地概念化它們與子目標、子任務及其他形式抽象的交互——目前仍是活躍的研究領域。

注意與順序決策 什么內容被表征，以及如何理解這一點，也可以被視為決策過程與注意機制相互作用的結果（Radulescu, Niv, & Ballard, 2019）。盡管關于注意作為一種有用建構的適用范圍存在相當多的爭論（James, 1890; Hommel et al., 2019），但就我們的目的而言，注意可被視為一種對信息進行偏置或過濾的過程，旨在促進決策過程中高效的學習與計算。因此，如果純粹推理是關于“超越數據”誘導模式，那么注意則涉及“減少數據”以使其更易于管理。在單階段決策背景下，結合選擇性注意與強化學習的模型可以解釋學習如何被調節并映射到注意的解剖學基礎之上（Leong, Radulescu, Daniel, DeWoskin, & Niv, 2017; Niv, 2019; Niv et al., 2015）。

近期工作還研究了認知控制——一種自上而下或目標導向的注意形式（Miller & Cohen, 2001; Shenhav et al., 2017）——在規劃中的作用。回顧第7.5.2節所述的規劃算法，它們都基于一個固定任務表征的假設來優化策略。例如，在使用啟發式樹搜索規劃棋步時，人們會使用一個實例化了棋子移動規則及獲勝條件的模型來模擬走法與應對招數。然而，有理由放松“固定規劃模型”的假設：首先，在現實世界中進行規劃時，往往沒有給定模型，因此認知系統必須定期面對按需構建模型的挑戰。其次，即使在具有明確定義真實模型的領域（如國際象棋），許多細節對于規劃即時行動而言也是無關緊要的。最后，心理學中關于問題解決、類比遷移和頓悟的經典發現表明，人們傾向于在不同問題表征之間靈活切換以求解問題（Duncker, 1945; Ohlsson, 2012; Holyoak, 2012）。受這些考慮的啟發，Ho 等人（2022）提出并檢驗了一個規范性的“價值引導任務約束”模型，該模型考慮了構建模型（形式化為選擇一個簡化MDP）與在該模型中優化策略（例如，使用第7.5.2節中的某一種算法）之間的相互作用。其核心思想是將模型與策略的選擇視為一個雙層優化過程：外層循環選擇一個簡化模型（即一個約束），該模型由內層循環的規劃算法用于計算最優策略。在其最簡形式中，外層循環尋求在任務約束下優化表征價值（VOR）：

7.6 主動學習

到目前為止，我們討論的情形中，我們行動的后果效用本身是直接感興趣的。但在認知的許多領域中，后果本身可能并非主要關注點，而是因為它們提供了進一步的信息。這正是主動學習（active learning）的領域，在該領域中，我們的行為至少部分不是服務于某個外部定義的目標，而是由盡可能高效地收集相關信息這一目標驅動的。在審視一張地圖、一頁書或一張人臉時，我們的眼睛并不會漫無目的地游移；相反，它們會尋找具有特定相關性或興趣的特征。因此，我們的眼睛會選擇性地采樣主要城鎮、道路或港口，而不是均勻分布的海面區域；它們會跳轉到那些似乎最有可能包含新奇且有趣信息的段落；并聚焦于那些最有可能揭示身份或情緒表情的面部特征。同樣，在決定與誰交談、在搜索引擎中輸入什么內容或閱讀什么材料時，我們通常是在搜尋信息，而非試圖達成任何具體的外部目標。事實上，大量的人類活動——尤其是在教育領域（當我們學習歷史或科學時）和文化領域（去看電影、讀小說或聽音樂）——都涉及獲取和處理并不服務于任何即時任務或目標的信息。我們的注意力是有限的，必須在一個充滿各種誘惑和干擾的復雜世界中明智地部署。當然，有時我們的關注范圍會更窄——我們有一個具體的決策要做出或一個行動方案要追求，我們希望收集有助于解決當下挑戰的信息。

無論如何，應當明確的是，選擇收集哪些信息（以及類似地，選擇注意哪些信息、忽略哪些信息——一旦信息被收集）的過程，在認知幾乎所有方面的運作中都具有核心重要性。存在一個持續不斷的循環：我們當前的知識狀態指導我們的感官和注意力去主動收集新信息；然后這些新信息被用于更新我們的知識狀態；接著我們再根據更新后的知識狀態去尋找更多信息，如此往復。我們是關于自身世界的不懈主動學習者，積極搜尋有用且有趣的信息，而非僅僅被動記錄偶然進入視野的任何數據。

舉一個平凡的例子，假設我們丟失了鑰匙。我們不會簡單等待有關其位置的有用證據自行出現。我們會主動搜尋有用的線索。我們會拍打口袋、翻找包袋、查看沙發底下，希望收集能給我們提供（希望是決定性的）線索的感官信息。在犯罪現場收集線索或設計科學實驗時，我們同樣是在嘗試選擇一組可能產生數據的動作，這些數據能夠在所考慮的不同理論之間起到診斷作用（例如，Lindley, 1956; Platt, 1964）。在所有這些情況下，我們都積極嘗試找到盡可能有用或有趣的那類信息。

究竟什么算作“有用”或“有趣”，將取決于我們的目標（找到鑰匙、抓住罪犯、確定最佳科學理論）。而在缺乏特定目標的情況下，我們會發現某些信息有趣，而另一些信息則枯燥乏味。事實上，大量閑暇時間都花在搜尋和消費與我們生活無明顯即時關聯的信息上（看電影、為運動隊加油、閱讀歷史和小說、聽音樂等等）。但盡管“是什么讓信息變得有趣”這一總體問題困難且開放（Chater & Loewenstein, 2016），主動學習的相同原則仍在發揮作用：我們的大腦正在搜尋并關注有趣的信息；同時試圖避免那些枯燥或無用的信息。

主動選擇希望接收的數據這一想法，乍看之下似乎有些輕微的悖論。畢竟，在我們將目光轉向新位置或進行科學實驗之前，我們并不知道將接收到什么數據——否則，數據收集的行為將完全多余。但如果我們不知道將接收到什么數據，又如何評估其潛在價值？

答案正如貝葉斯方法中常見的那樣，源于先驗知識的使用。因此，在移動眼睛或進行實驗之前，我們可以考慮在數據收集行為被設想之前的可能數據集的概率分布（此處“先驗”僅指“在數據收集行為被構想之前”）。假設智能體能夠為每個可能的數據結果賦予一個價值；那么，可能導致此類數據的動作的信息價值就可以簡單地定義為期望值，其中期望是相對于數據的先驗分布而言的。例如，我們對人類面部的先驗知識，加上視覺外圍當前低保真度的信息，可能足以將視覺空間中的某些位置縮小為比其他位置更可能有趣的地方，因而成為更合適的注視目標。因此，例如，在掃描圖像時，眼球運動有可能在諸如眼睛和嘴巴等信息豐富的元素間跳躍，并較少關注臉頰或額頭區域，或背景中的墻壁。

為了直觀理解這一機制如何運作，考慮一個著名推理心理學任務（Wason, 1966, 1968）的變體：人們必須根據一條規則主動選擇數據，例如“如果一個人在俱樂部里，那么他必須至少21歲”，該規則的形式為“若 p，則 q”。在實驗任務中，參與者會看到四張卡片，每張卡片的一面寫著年齡，另一面寫著此人是否進入了俱樂部。但我們只能看到卡片的正面——任務是說出我們希望翻看哪些卡片。

翻看哪些卡片（即，搜尋哪些信息）的答案當然取決于我們的效用。這些效用在日常生活中甚至在許多實驗任務中通常只是模糊指定的。但這些效用顯然會依賴于我們的目標。例如，假設我們是一名警察，正在檢查違反規則的情況——并且假設我們因發現違法行為而獲得高收益。

那么我們可以明確忽略那些不在俱樂部的人（我們不翻看“非 p”卡片）以及年齡超過21歲的人（我們不翻看“q”卡片）。但我們確實希望主動了解那些在俱樂部里的人——這樣做的預期收益取決于我們的先驗概率（基于背景知識），即他們可能未滿21歲（當然，也取決于我們從發現任何此類違規者中獲得的效用）。我們還想檢查未滿21歲的人（“非 q”卡片），以防他們恰好進入了俱樂部。在大多數現實場景中，翻看這張卡片的預期收益相當低——畢竟，未滿21歲的人數量龐大，而其中有人恰好進入俱樂部的可能性很低。因此，翻看“p”卡片將帶來最大的預期效用，翻看“q”卡片則有較小的預期效用，其余卡片的預期效用為零（事實上，如果我們考慮調查所付出的“努力”，這些選項將具有負的預期效用，因而不會被選擇）。這與實驗數據相符（Cheng & Holyoak, 1985; Cosmides, 1989）。1?

但為了看清效用的關鍵作用，假設我們不是警察，而是大學學生會的代表，職責是檢查年齡超過21歲的人（q 卡片）是否沒有被不公平地拒之門外（非 p 卡片）。在這種角色下，我們的效用并非來自發現違反規則的情況（p、非 q 情形），而是來自發現那些未被規則正當化的例外情況。

（非 p、q 情形）。要找到這類情形，只需翻看“非 p”和“q”卡片即可。因此，我們選擇翻看哪些卡片——即我們主動選擇調查哪些信息——不僅取決于規則本身，還取決于我們的目標；而這種根據任務框架變化的卡片選擇，在實驗中已被觀察到（Gigerenzer & Hug, 1992）。請注意，如果像早期關于選擇任務的討論那樣，將數據選擇問題視為純粹的“邏輯”問題，獨立于決策者的效用，則無法預測這些轉變。

該不等式意味著，平均而言，任何新的觀察或實驗所預期帶來的信息量都是正的，或者至多為零（這一結論源自基本的信息論（Cover & Thomas, 1991））。期望信息增益及其密切相關概念已被用作衡量實驗優劣的標準、神經網絡中主動學習的模型（Mackay, 1992b），以及用于建模諸如閱讀過程中眼動如何被引導等認知現象（例如，Legge, Klitz, & Tjan, 1997）。

事實上，這種方法也被應用于四卡片選擇任務（Wason, 1966, 1968）的一個變體。假設我們考慮一條抽象規則（不涉及俱樂部、年齡限制或其他任何現實情境），例如：“如果一張卡片的一面是 A，那么另一面就是 2。” 現在我們面前有以下四張卡片：

參與者對該規則沒有任何特定的效用關聯（他們并非在尋找違反規則的情況，也不是在尋找規則無法合理解釋的待遇案例）。相反，任務僅僅是收集信息，以判斷該規則是否成立。從信息論的角度來看，我們假設自己最初對規則的真假持某種先驗信念（可能是完全無知），并希望翻看那些在期望意義上最有可能最大程度降低我們不確定性的卡片（Oaksford & Chater, 1994）。當然，針對這一設定，可以構建出許多不同細節的模型。但為了直觀理解人們可能做出的推斷，不妨考慮一個現實世界的例子：假設我們想知道吃牛肚是否會導致人生病。那么這四張卡片將如下所示：

直觀上，顯然我們應該翻看“牛肚”（p）卡片——發現此人是否生病將提供非常豐富的信息。同樣，我們自然也會去查詢那些生病的人（q 卡片）。生病的原因有很多，但有可能他們恰好最近吃了牛肚，這將為該假設提供支持性證據。此外，檢查未生病的人（非 q 卡片）也存在一種較為遙遠的可能性，即獲得有用信息：萬一他們碰巧吃了牛肚，這將構成對規則的反例。然而，由于吃牛肚極為罕見，出現這種情況的概率非常低，我們很可能只是抽樣到一個健康的、沒吃牛肚的人，這幾乎不會提供任何信息。因此，人們主動調查卡片的傾向應遵循如下順序：p > q > 非 q > 非 p，這一順序已在實證研究中被觀察到（Oaksford & Chater, 1994）。不過，Oberauer、Wilhelm IV 和 Diaz（1999）指出，直接操縱不同結果的概率有時對卡片選擇的影響至多很微弱。

這種基于期望信息增益的分析，為該任務中的主動數據選擇提供了一種理性解釋，尤其引人注目，因為人們常認為該任務“邏輯上”正確的反應純粹是尋求對規則的證偽（即只翻看 p 和非 q 卡片），而翻看 q 卡片則純粹是一種錯誤——這種觀點似乎符合波普爾（Popper）的證偽主義科學哲學（Popper, 1959/1990），而非貝葉斯式的科學推理觀（Howson & Urbach, 1993）。貝葉斯主動學習框架還能捕捉該任務的許多變體，以及事件 p 和 q 的概率變化如何影響卡片選擇頻率（Oaksford & Chater, 2003）。然而，人們的數據選擇并未完全與這些概率校準——人們似乎傾向于假設 p 和 q 默認是罕見的（這在絕大多數現實世界的規則中確實成立），即使在特定實驗情境中這一假設并不成立。更一般而言，這一觀點有助于解釋為何人們經常采用“正向檢驗策略”（positive test strategy；Navarro & Perfors, 2011），即在尋找反例幾乎不可能發現相關證據的情況下，轉而搜索支持感興趣假設的實例。因此，至少在許多情境下，傾向于尋找正面實例并非確認偏誤（confirmation bias）的表現，而是具有理性基礎的（Klayman & Ha, 1987）。

不過請注意，以盡可能多地獲取信息為目標而主動選擇信息，是相對于我們希望檢驗的一組特定假設而言的（例如，某條特定規則是否成立）。但如前所述，我們的目標常常更為開放——有時我們瀏覽報紙是為了了解某個特定事件的結果，但很多時候我們只是想知道是否發生了什么有趣的事情。同樣，在科學中，我們有時試圖設計實驗來檢驗一個或多個具體假設；但很多時候，我們的探究要更具探索性。如何最好地刻畫這類開放情境中的主動學習，是一個重要且尚未解決的問題——我們對“什么使信息變得有趣”僅有初步的理論（Chater & Loewenstein, 2016）。

本文主要聚焦于確定應采樣哪些數據的問題。但至少同樣重要的是一個平行問題：一旦數據被采樣，應執行哪些計算？鑒于大腦的計算資源顯然極為有限，認知系統最重要的任務之一便是謹慎地引導其計算資源。與選擇采樣哪些信息的問題類似，這一想法本身也略帶悖論色彩：在尚未執行某項計算之前，我們如何判斷其結果可能有多有用？同樣，關鍵在于能夠利用先驗信息來判斷哪些計算可能是有用的，哪些則不然。我們將在第13章詳細探討這一問題，考察對有限計算資源的理性使用如何解釋人類行為偏離貝葉斯決策理論的某些方式。

7.8 理性的局限

本章的基本前提是：期望效用（或類似量）的最大化可以為跨多個領域的決策建模提供基礎，從動物覓食到運動控制、學習以及高層決策。這一觀點似乎與判斷與決策領域及行為經濟學的研究傳統相沖突，后者似乎表明人們經常且系統性地偏離貝葉斯決策理論——事實上，作為經濟學決策方法基礎的基本一致性假設，也常常被系統性地違反（例如，Kahneman & Tversky, 1984）。

一些理論家認為，對理性的偏離如此普遍，以至于將貝葉斯視角用于決策建模，乃至更廣義上對行為的理性分析，可能是一條理論死胡同；相反，他們主張，行為或許更宜用一系列啟發式規則或輸入-輸出規則的層級集合來解釋（例如，Brooks, 1991；Gigerenzer & Todd, 1999；McFarland & B?sser, 1993）。

我們持相反觀點：放棄決策的理性理論，將使人類行為變得完全不可理解——事實上，這將導致我們無法區分“行為”（例如，拿起杯子、向朋友揮手、打字發消息）與單純的“動作”（例如，跌倒、被醫生的錘子觸發反射、無意中壓到電腦鍵盤）。貝葉斯決策理論有助于將行為解釋為目的性活動：我們的行動與我們的偏好和信念保持一致。例如，我們之所以拿起咖啡杯，是因為我們相信杯中有咖啡，并且我們想喝它。我們運動動作的精細細節也可以用同樣的方式解釋：我們希望平穩高效地拿起杯子，并在移動過程中不灑出內容物，這一意圖有助于解釋我們具體如何移動。更廣泛地說，貝葉斯視角解釋了信念、偏好和行動如何在多個尺度上（從單個動作、行為、即時計劃，到整個人生方向）以盡可能連貫的方式相互關聯。相比之下，如果我們試圖將行為僅僅視為一組反射或一套專用啟發式工具箱，就很難理解人類行為連貫性的來源（例如，Bratman, 1987）1?。

在本書中，我們使用貝葉斯建模，旨在揭示人類所面對的特定歸納問題的理想解是什么樣子，進而以此作為理解人類行為的工具。期望該方法總能對人類決策的精確細節進行定量建模是不現實的。我們認為，貝葉斯方法在那些人類表現已被強大的自然選擇和學習力量所塑造的領域中可能尤為有效——例如運動控制、動作序列組織、規劃、常識推理等。而在我們不熟悉的、以數字或語言形式呈現的決策問題（例如涉及賭博選擇的問題）中，該方法可能遠不適用1?。

此外，大腦無法嚴格遵循貝葉斯決策理論——除最簡單的情境外，精確的貝葉斯計算在計算上是不可行的，只能通過近似方法實現，例如采樣方法（參見本書第6章；Chater 等，2020；Sanborn & Chater, 2016；Vul 等，2014）。然而，要理解人類行為的目的性本質，我們必須將人類行動視為對理性模型的近似，而非完全不受約束。也就是說，智能決策可以是有限推理的產物，但絕不能是毫無推理的結果。

7.9 小結

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.