<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      強化學習:我們如何被獎勵塑造行為

      0
      分享至


      很多時候,我們以為自己是在思考之后才學會某種行為。但從神經科學的角度看,學習往往發生得更早,也更隱秘。

      當一個選擇帶來好結果,它更可能再次出現;當一個行為導致不利后果,它逐漸被抑制。

      這種從反饋中調整行為的過程,被稱為強化學習(reinforcement learning)。它并不是某種高階推理,而是連接經驗、行動與未來選擇的基本機制

      在神經科學中,強化學習并不是從計算機科學“照搬”來的概念。相反,它最早來自對動物行為的觀察:獎勵不僅帶來愉悅感,更重要的是,它會改變行為的概率。正是這一點,讓獎勵成為塑造決策的關鍵力量。

      從“被獎勵”到“做選擇”

      早期心理學家很早就注意到,如果一個行為產生令人滿意的結果,它會在未來更頻繁地出現。久而久之,人們甚至提出一種激進的觀點:所有行為,都是為了獲得獎勵或避免懲罰。

      這一思想在行為主義時代被推到極致。通過精心控制獎勵出現的方式——比如間隔多久、需要付出多少努力——研究者發現,行為可以被系統性地塑造。動物并不需要理解規則本身,只要反饋足夠穩定,行為模式就會逐漸成形。

      真正讓“學習”與“決策”交匯的,是當環境中出現了多個可選項。當個體不再只是重復一個動作,而是在不同選項之間分配時間和精力,選擇本身就成為研究對象。

      在這些多選項任務中,一個令人著迷的現象反復出現:個體往往不會把所有行為都壓到回報最高的選項上。相反,它們會在不同選項之間分配選擇次數,而且分配比例往往接近各選項獲得獎勵的比例。這種現象被稱為匹配行為。它描述了行為如何隨回報分布而變化,卻并不解釋行為為何如此。

      更耐人尋味的是,在大多數實驗中,個體表現出的并不是“完美匹配”,而是一種偏離——它們對高回報選項的選擇不夠極端,對低回報選項的嘗試反而更多。這種現象被稱為欠匹配。

      從結果上看,這似乎并不完全“理性”。如果目標是最大化回報,為什么不更堅決地選擇更好的選項?

      大腦在做全局計算嗎?

      一個重要的轉折在于,人們開始意識到:也許問題不在“結果是否最優”,而在大腦如何在時間中做決定

      在現實世界中,回報是隨機的、嘈雜的,真正的回報率需要很長時間才能估計清楚。如果要判斷“長期來看這樣做是否更好”,大腦必須保留大量歷史信息,并進行復雜計算。這在生物系統中并不容易實現。

      相反,如果大腦采用的是一種局部規則——在當下偏向最近回報更高的選項——那么欠匹配反而是自然結果。每一次選擇,都是基于近期經驗的權衡,而不是對整體結構的精確把握。

      從這種局部選擇規則出發,長期統計上的匹配行為會自然涌現,而無需大腦明確追求“最優解”。

      當研究者把目光投向大腦時,這一假設開始獲得支持。在靈長類動物的實驗中,神經元的活動不僅與選擇本身有關,還會隨選項的回報歷史發生系統性變化

      某些神經區域中的神經元,其放電強度會反映某個選項在近期“有多值得選”。這種信號并不是一次性計算出的,而是通過對獎勵歷史的持續整合逐步形成。

      重要的是,這種整合并不是無限的。較新的結果影響更大,較久遠的結果逐漸衰減。這意味著,大腦對世界的估計始終是動態的、帶有遺忘的。

      學習信號來自哪里?

      要讓估計發生改變,大腦需要一個關鍵信號:當結果與預期不一致時,系統必須“知道自己錯了”。

      這正是預測誤差的核心思想。預測誤差并不只是“得到了多少獎勵”,而是“實際結果與預期之間的差異”。如果結果比預期好,估計上調;如果更差,估計下調。

      在大腦中,某些神經系統的活動模式,與這種誤差信號高度一致。它們在結果超出預期時短暫增強,在結果落空時被抑制。這種信號并不是為了制造快感,而是為了驅動學習,讓連接發生改變。

      隨著時間維度被引入,預測誤差也不再局限于結果出現的那一刻,而是逐漸提前,轉移到那些預示未來結果的線索上。這一現象,為更連續的學習模型提供了基礎。

      正是在這樣的背景下,研究者開始借助計算機科學中的強化學習框架,對這些過程進行形式化描述。在這一框架中,個體被視為一個與環境互動的“代理”,通過行動獲得反饋,并試圖在時間中最大化回報

      這些模型提供了一種清晰的語言,用來描述學習、選擇和更新的關系。但它們并不等同于大腦的真實實現方式。某些算法在數學上優雅,卻可能難以在嘈雜、有限的神經系統中實現。

      事實上,動物的行為往往偏離這些“理想模型”。它們會更新未被選擇的選項,會表現出選擇慣性,會在探索與利用之間搖擺。這些特征并非噪聲,而是生物系統在現實約束下的產物。

      從神經科學的角度看,強化學習更像是一種視角,幫助我們理解:經驗如何塑造行為,反饋如何改變選擇,以及學習如何嵌入決策本身

      它提醒我們,所謂“理性”,并不意味著完美計算;所謂“學習”,也不意味著穩定收斂。在真實的大腦中,學習總是在有限信息、不確定環境和生物約束下展開。而正是在這種不完美中,行為才顯得如此真實。

      在「神經現實 x Noetex Academy」新一期的決策神經科學課程中,你將進一步了解神經科學如何研究強化學習。在達特茅斯學院神經科學教授Alireza Soltani帶領下,你將進入生物、認知和計算三個層級,探尋決策機制的神經基礎,以及它如何啟發經濟學、認知科學和人工智能等領域的發展。







      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老伴手術急需25萬,老漢拿紀念鈔去銀行兌錢,銀行的做法讓老人愣住

      老伴手術急需25萬,老漢拿紀念鈔去銀行兌錢,銀行的做法讓老人愣住

      懸案解密檔案
      2025-09-22 11:05:28
      愛因斯坦又贏了!100年前愛因斯坦的預言,終于被天文學家撞見

      愛因斯坦又贏了!100年前愛因斯坦的預言,終于被天文學家撞見

      Science科學說
      2026-01-05 12:25:03
      吳越納土歸宋的真相:3千多錢氏宗族遷居開封,錢弘俶本人被軟禁

      吳越納土歸宋的真相:3千多錢氏宗族遷居開封,錢弘俶本人被軟禁

      歷史擺渡
      2026-02-18 17:15:03
      令歐美頭疼的穆斯林難題,在中國卻不成問題,只因中國人擁有一項獨特本領

      令歐美頭疼的穆斯林難題,在中國卻不成問題,只因中國人擁有一項獨特本領

      文史明鑒
      2026-02-16 16:30:15
      潮汕婚禮丈母娘火了,打扮嬌艷比新娘還搶鏡,網友:感覺有點不對

      潮汕婚禮丈母娘火了,打扮嬌艷比新娘還搶鏡,網友:感覺有點不對

      梅子的小情緒
      2026-02-08 19:59:04
      湯帥:我最喜歡的球隊是活塞而非火箭 為活塞如今的表現而欣喜

      湯帥:我最喜歡的球隊是活塞而非火箭 為活塞如今的表現而欣喜

      仰臥撐FTUer
      2026-02-22 09:50:15
      趙心童1-3逆轉6-5晉級決賽,今晚決戰巫師沖擊140萬巨獎

      趙心童1-3逆轉6-5晉級決賽,今晚決戰巫師沖擊140萬巨獎

      孫譁北漂拍客
      2026-02-22 09:52:03
      家宴上妻子男閨蜜逼我簽離婚協議,我爽快簽字后反手亮出底牌

      家宴上妻子男閨蜜逼我簽離婚協議,我爽快簽字后反手亮出底牌

      曉艾故事匯
      2026-02-16 08:02:16
      “跳水”大降價,又一豪車品牌扛不住了!

      “跳水”大降價,又一豪車品牌扛不住了!

      蔣東文
      2026-01-16 20:51:15
      一針見血!約翰遜炮轟歐洲:別空談,給烏遠程武器才是硬道理

      一針見血!約翰遜炮轟歐洲:別空談,給烏遠程武器才是硬道理

      老馬拉車莫少裝
      2026-02-19 14:10:27
      73歲遲重瑞近況:賣故宮旁自家房子,均價15萬,陳麗華嫁他好福氣

      73歲遲重瑞近況:賣故宮旁自家房子,均價15萬,陳麗華嫁他好福氣

      一娛三分地
      2026-02-19 17:04:30
      美國發出嚴厲警告:中國如敢動美航母,將引發‘三戰’危機

      美國發出嚴厲警告:中國如敢動美航母,將引發‘三戰’危機

      領悟看世界
      2026-02-22 00:26:00
      洪學智曾任志愿軍副司令員,1955年為何僅被授予副兵團級上將軍銜?

      洪學智曾任志愿軍副司令員,1955年為何僅被授予副兵團級上將軍銜?

      老杉說歷史
      2026-02-09 22:15:09
      離開鮑春來之后,她嫁給比自己大十歲的丈夫,連育一子一女

      離開鮑春來之后,她嫁給比自己大十歲的丈夫,連育一子一女

      陳意小可愛
      2026-02-19 17:41:26
      斯諾克神奇紀錄延續?巫師或難堪大任,趙心童奪冠將達成4項成就

      斯諾克神奇紀錄延續?巫師或難堪大任,趙心童奪冠將達成4項成就

      劉姚堯的文字城堡
      2026-02-22 08:19:35
      快船官方更新倫納德傷勢:左腳踝核磁共振無肌腱損傷&需合理休息

      快船官方更新倫納德傷勢:左腳踝核磁共振無肌腱損傷&需合理休息

      凡人說體育
      2026-02-22 03:58:34
      王騰換上iPhone17手機,不再用小米,網友:終于不用偽裝了

      王騰換上iPhone17手機,不再用小米,網友:終于不用偽裝了

      老孫說科技
      2026-02-21 09:35:18
      潘林儒:蘇州市政協原主席兼中共蘇州市委政法委書記

      潘林儒:蘇州市政協原主席兼中共蘇州市委政法委書記

      觀星賞月
      2026-02-21 22:52:28
      徐夢桃:我個人得到了第五枚奧運獎牌,沒準下一屆還能多兩塊

      徐夢桃:我個人得到了第五枚奧運獎牌,沒準下一屆還能多兩塊

      懂球帝
      2026-02-22 07:57:40
      湖人125-122險勝快船 球員評價:2人滿分,4人及格,4人低迷

      湖人125-122險勝快船 球員評價:2人滿分,4人及格,4人低迷

      籃球資訊達人
      2026-02-21 14:03:53
      2026-02-22 11:56:49
      神經現實
      神經現實
      大腦,心智,認知
      2437文章數 25485關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      特朗普:將確定并公布新的、在法律上允許的關稅措施

      頭條要聞

      特朗普:將確定并公布新的、在法律上允許的關稅措施

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      教育
      本地
      親子
      數碼
      藝術

      教育要聞

      “只有窮人,才這樣教育子女!”家長讓孩子給外賣員送水,被群嘲

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      親子要聞

      為什么小男孩小時候要比小女孩難養好多?網友:通常精力充沛

      數碼要聞

      2026中國電影票房暫列全球第一;小米17系列進軍全球市場

      藝術要聞

      這本書法,80%的人無法讀懂!網友直言:看到第二字就傻眼!

      無障礙瀏覽 進入關懷版