<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<sub id="e5y38"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

強化學習：我們如何被獎勵塑造行為

2026-02-11 23:15:51　來源: 神經現實

北京舉報

0

分享至

很多時候，我們以為自己是在思考之后才學會某種行為。但從神經科學的角度看，學習往往發生得更早，也更隱秘。

當一個選擇帶來好結果，它更可能再次出現；當一個行為導致不利后果，它逐漸被抑制。

這種從反饋中調整行為的過程，被稱為強化學習（reinforcement learning）。它并不是某種高階推理，而是連接經驗、行動與未來選擇的基本機制。

在神經科學中，強化學習并不是從計算機科學“照搬”來的概念。相反，它最早來自對動物行為的觀察：獎勵不僅帶來愉悅感，更重要的是，它會改變行為的概率。正是這一點，讓獎勵成為塑造決策的關鍵力量。

從“被獎勵”到“做選擇”

早期心理學家很早就注意到，如果一個行為產生令人滿意的結果，它會在未來更頻繁地出現。久而久之，人們甚至提出一種激進的觀點：所有行為，都是為了獲得獎勵或避免懲罰。

這一思想在行為主義時代被推到極致。通過精心控制獎勵出現的方式——比如間隔多久、需要付出多少努力——研究者發現，行為可以被系統性地塑造。動物并不需要理解規則本身，只要反饋足夠穩定，行為模式就會逐漸成形。

真正讓“學習”與“決策”交匯的，是當環境中出現了多個可選項。當個體不再只是重復一個動作，而是在不同選項之間分配時間和精力，選擇本身就成為研究對象。

在這些多選項任務中，一個令人著迷的現象反復出現：個體往往不會把所有行為都壓到回報最高的選項上。相反，它們會在不同選項之間分配選擇次數，而且分配比例往往接近各選項獲得獎勵的比例。這種現象被稱為匹配行為。它描述了行為如何隨回報分布而變化，卻并不解釋行為為何如此。

更耐人尋味的是，在大多數實驗中，個體表現出的并不是“完美匹配”，而是一種偏離——它們對高回報選項的選擇不夠極端，對低回報選項的嘗試反而更多。這種現象被稱為欠匹配。

從結果上看，這似乎并不完全“理性”。如果目標是最大化回報，為什么不更堅決地選擇更好的選項？

大腦在做全局計算嗎？

一個重要的轉折在于，人們開始意識到：也許問題不在“結果是否最優”，而在大腦如何在時間中做決定。

在現實世界中，回報是隨機的、嘈雜的，真正的回報率需要很長時間才能估計清楚。如果要判斷“長期來看這樣做是否更好”，大腦必須保留大量歷史信息，并進行復雜計算。這在生物系統中并不容易實現。

相反，如果大腦采用的是一種局部規則——在當下偏向最近回報更高的選項——那么欠匹配反而是自然結果。每一次選擇，都是基于近期經驗的權衡，而不是對整體結構的精確把握。

從這種局部選擇規則出發，長期統計上的匹配行為會自然涌現，而無需大腦明確追求“最優解”。

當研究者把目光投向大腦時，這一假設開始獲得支持。在靈長類動物的實驗中，神經元的活動不僅與選擇本身有關，還會隨選項的回報歷史發生系統性變化。

某些神經區域中的神經元，其放電強度會反映某個選項在近期“有多值得選”。這種信號并不是一次性計算出的，而是通過對獎勵歷史的持續整合逐步形成。

重要的是，這種整合并不是無限的。較新的結果影響更大，較久遠的結果逐漸衰減。這意味著，大腦對世界的估計始終是動態的、帶有遺忘的。

學習信號來自哪里？

要讓估計發生改變，大腦需要一個關鍵信號：當結果與預期不一致時，系統必須“知道自己錯了”。

這正是預測誤差的核心思想。預測誤差并不只是“得到了多少獎勵”，而是“實際結果與預期之間的差異”。如果結果比預期好，估計上調；如果更差，估計下調。

在大腦中，某些神經系統的活動模式，與這種誤差信號高度一致。它們在結果超出預期時短暫增強，在結果落空時被抑制。這種信號并不是為了制造快感，而是為了驅動學習，讓連接發生改變。

隨著時間維度被引入，預測誤差也不再局限于結果出現的那一刻，而是逐漸提前，轉移到那些預示未來結果的線索上。這一現象，為更連續的學習模型提供了基礎。

正是在這樣的背景下，研究者開始借助計算機科學中的強化學習框架，對這些過程進行形式化描述。在這一框架中，個體被視為一個與環境互動的“代理”，通過行動獲得反饋，并試圖在時間中最大化回報。

這些模型提供了一種清晰的語言，用來描述學習、選擇和更新的關系。但它們并不等同于大腦的真實實現方式。某些算法在數學上優雅，卻可能難以在嘈雜、有限的神經系統中實現。

事實上，動物的行為往往偏離這些“理想模型”。它們會更新未被選擇的選項，會表現出選擇慣性，會在探索與利用之間搖擺。這些特征并非噪聲，而是生物系統在現實約束下的產物。

從神經科學的角度看，強化學習更像是一種視角，幫助我們理解：經驗如何塑造行為，反饋如何改變選擇，以及學習如何嵌入決策本身。

它提醒我們，所謂“理性”，并不意味著完美計算；所謂“學習”，也不意味著穩定收斂。在真實的大腦中，學習總是在有限信息、不確定環境和生物約束下展開。而正是在這種不完美中，行為才顯得如此真實。

在「神經現實 x Noetex Academy」新一期的決策神經科學課程中，你將進一步了解神經科學如何研究強化學習。在達特茅斯學院神經科學教授Alireza Soltani帶領下，你將進入生物、認知和計算三個層級，探尋決策機制的神經基礎，以及它如何啟發經濟學、認知科學和人工智能等領域的發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0
AGILE：自監督+交互式強化學習助力VLMs感知與推理全面提升

機器之心Pro 2025-10-20 18:30:03
0 跟貼 0

機器人集體亮相春晚后：“假蔡明”被送給了真蔡明，“春晚版熊貓”拍出近6萬元高價

紅星新聞 2026-02-21 20:39:13
862 跟貼 862

AlphaGo之父出山：另辟蹊徑，繞過大模型探索超級智能

DeepTech深科技 2026-02-20 22:20:30
5 跟貼 5
表面風光之下，OpenAI的“四大困境”

華爾街見聞官方 2026-02-22 11:11:06
0 跟貼 0

AI時代的認知裂谷與K型分化：你是那1%嗎？

虎嗅APP 2026-02-22 02:21:12
0 跟貼 0

這一個Tab鍵，我愿意單獨付費：Cursor在線強化學習優化代碼建議

機器之心Pro 2025-09-15 10:35:28
14 跟貼 14
不但機械要厲害，控制的算法更厲害，網友瞬間不淡定了

姜江愛搞笑 2026-02-20 16:24:00
0 跟貼 0

VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
男子狂妄插隊，無視排隊規則

曬曬太陽z 2026-02-21 04:54:12
4 跟貼 4
孫穎莎王楚欽三連冠，頂級榮譽貶值？規則變革引公平爭議！

辛苦的啊欣啊 2026-02-21 02:33:57
0 跟貼 0
無視交通規則，闖紅燈致三車相撞，可憐之人必有可恨之處！

豆莢看生活 2026-02-21 15:05:00
1 跟貼 1
別再怕你導師了！科學搞定他的底層邏輯

生物學霸 2025-09-09 22:02:30
0 跟貼 0
罄！告急！有跨省回上海返程機票高達11560元

新民晚報 2026-02-21 12:30:00
1178 跟貼 1178
黃金9變開球失機，這規則合理嗎？

啊噠體育 2026-02-20 18:31:24
1 跟貼 1
39歲員工被公司決策裁員，他坦然接受回家種地，上級這時候卻慌了

雪姐故事多 2026-02-22 08:25:00
0 跟貼 0
第一個面臨消失的職業，不是幼師，不是快遞員，而是這三種工作？

今夜繁星墜落 2026-02-21 13:09:37
6 跟貼 6
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1791 跟貼 1791
導師朋友圈點贊后秒取消，研究生腦補一出大戲：是手滑還是故意的？

生物學霸 2025-10-12 17:12:27
0 跟貼 0
學術報告 | 張鴻輝：城市存量低效空間更新改造的三維模擬與優化決策

中國城市規劃學會 2026-02-22 09:16:38
0 跟貼 0
金銀價再度大漲國內金飾價格逼近1600元/克

極目新聞 2026-02-21 19:50:24
1015 跟貼 1015
算法更新！搶紅包不再靠拼手速

快科技 2026-02-19 18:18:50
0 跟貼 0
懸賞10000元！全網都在“找鰲魚”！一條長21米、高7米的巨型鰲魚，意外被大風吹走

新民晚報 2026-02-21 20:03:11
748 跟貼 748
人氣火爆！江蘇無錫一景區發布限流公告

現代快報 2026-02-19 22:42:05
590 跟貼 590
“前方無廁所、無烤腸、無茶葉蛋”，杭州“天下第一財神廟”勸返游客：回家吧

極目新聞 2026-02-21 18:45:33
697 跟貼 697
大超市爆改文商旅綜合體，“金陵長樂坊”開市首日人氣爆棚

現代快報 2026-02-19 22:53:05
602 跟貼 602
浙江派出工作組，在全省開展全覆蓋督查檢查

政知新媒體 2026-02-22 09:02:18
4 跟貼 4
一個偽裝俄羅斯人的凋亡

求實處 2026-02-21 23:49:19
1 跟貼 1
用硅膠制作的美人魚模型，長得真是太恐怖了

樂活捕手 2026-02-19 08:18:06
13 跟貼 13
機械藝術的巔峰魯格P08半自動獨特肘節式起落閉鎖機制

武器知識 2026-02-21 16:42:18
1 跟貼 1
剛剛，CVPR 2026正式放榜！超16000篇投稿，3/4被拒

新智元 2026-02-21 19:27:08
0 跟貼 0
26股獲機構上調評級至“買入”

財聯社 2026-02-22 07:49:04
1 跟貼 1
女生論文致謝寫錯導師名字，導師批注亮了：別改，就這么發！

武大華科講座 2026-02-20 11:40:48
0 跟貼 0
于發友：推動大學從“知識應用”向“價值創造”轉型

中國教科院 2026-02-22 08:09:06
0 跟貼 0
中國短道速滑隊創28年來最差戰績，“王濛說簽生死狀復出”登上熱搜第一，不是說遺憾，是滑得太難看了！

大象新聞 2026-02-21 15:44:03
133 跟貼 133
我讓他休息，他竟然真信了？985 博導親述：有眼力見的學生是篩出來的

生物學霸 2025-11-07 17:30:13
0 跟貼 0
研究生復試失利，導師偷偷給了個名額，沒想到他憑「笨方法」逆襲成頂刊一作

生物學霸 2025-11-14 17:32:22
0 跟貼 0
春晚機器人大秀肌肉這些企業搶占賽道先機

財聯社 2026-02-22 08:12:14
1 跟貼 1
李天馬失誤抱頭痛哭徐夢桃安慰:四年后咱們再來

上觀新聞 2026-02-21 22:13:18
372 跟貼 372
北大天才許晨陽，回國6年后為何再次赴美？他留下的三句話，扎心了

蘇格拉高 2026-02-22 07:49:21
0 跟貼 0

老伴手術急需25萬,老漢拿紀念鈔去銀行兌錢,銀行的做法讓老人愣住

老伴手術急需25萬,老漢拿紀念鈔去銀行兌錢,銀行的做法讓老人愣住

懸案解密檔案

2025-09-22 11:05:28

愛因斯坦又贏了！100年前愛因斯坦的預言，終于被天文學家撞見

愛因斯坦又贏了！100年前愛因斯坦的預言，終于被天文學家撞見

Science科學說

2026-01-05 12:25:03

吳越納土歸宋的真相：3千多錢氏宗族遷居開封，錢弘俶本人被軟禁

吳越納土歸宋的真相：3千多錢氏宗族遷居開封，錢弘俶本人被軟禁

歷史擺渡

2026-02-18 17:15:03

令歐美頭疼的穆斯林難題，在中國卻不成問題，只因中國人擁有一項獨特本領

令歐美頭疼的穆斯林難題，在中國卻不成問題，只因中國人擁有一項獨特本領

文史明鑒

2026-02-16 16:30:15

潮汕婚禮丈母娘火了，打扮嬌艷比新娘還搶鏡，網友：感覺有點不對

潮汕婚禮丈母娘火了，打扮嬌艷比新娘還搶鏡，網友：感覺有點不對

梅子的小情緒

2026-02-08 19:59:04

湯帥：我最喜歡的球隊是活塞而非火箭為活塞如今的表現而欣喜

湯帥：我最喜歡的球隊是活塞而非火箭為活塞如今的表現而欣喜

仰臥撐FTUer

2026-02-22 09:50:15

趙心童1-3逆轉6-5晉級決賽，今晚決戰巫師沖擊140萬巨獎

趙心童1-3逆轉6-5晉級決賽，今晚決戰巫師沖擊140萬巨獎

孫譁北漂拍客

2026-02-22 09:52:03

家宴上妻子男閨蜜逼我簽離婚協議，我爽快簽字后反手亮出底牌

家宴上妻子男閨蜜逼我簽離婚協議，我爽快簽字后反手亮出底牌

曉艾故事匯

2026-02-16 08:02:16

“跳水”大降價，又一豪車品牌扛不住了！

“跳水”大降價，又一豪車品牌扛不住了！

蔣東文

2026-01-16 20:51:15

一針見血！約翰遜炮轟歐洲：別空談，給烏遠程武器才是硬道理

一針見血！約翰遜炮轟歐洲：別空談，給烏遠程武器才是硬道理

老馬拉車莫少裝

2026-02-19 14:10:27

73歲遲重瑞近況：賣故宮旁自家房子，均價15萬，陳麗華嫁他好福氣

73歲遲重瑞近況：賣故宮旁自家房子，均價15萬，陳麗華嫁他好福氣

一娛三分地

2026-02-19 17:04:30

美國發出嚴厲警告：中國如敢動美航母，將引發‘三戰’危機

美國發出嚴厲警告：中國如敢動美航母，將引發‘三戰’危機

領悟看世界

2026-02-22 00:26:00

洪學智曾任志愿軍副司令員，1955年為何僅被授予副兵團級上將軍銜？

洪學智曾任志愿軍副司令員，1955年為何僅被授予副兵團級上將軍銜？

老杉說歷史

2026-02-09 22:15:09

離開鮑春來之后，她嫁給比自己大十歲的丈夫，連育一子一女

離開鮑春來之后，她嫁給比自己大十歲的丈夫，連育一子一女

陳意小可愛

2026-02-19 17:41:26

斯諾克神奇紀錄延續？巫師或難堪大任，趙心童奪冠將達成4項成就

斯諾克神奇紀錄延續？巫師或難堪大任，趙心童奪冠將達成4項成就

劉姚堯的文字城堡

2026-02-22 08:19:35

快船官方更新倫納德傷勢：左腳踝核磁共振無肌腱損傷&需合理休息

快船官方更新倫納德傷勢：左腳踝核磁共振無肌腱損傷&需合理休息

凡人說體育

2026-02-22 03:58:34

王騰換上iPhone17手機，不再用小米，網友：終于不用偽裝了

王騰換上iPhone17手機，不再用小米，網友：終于不用偽裝了

老孫說科技

2026-02-21 09:35:18

潘林儒：蘇州市政協原主席兼中共蘇州市委政法委書記

潘林儒：蘇州市政協原主席兼中共蘇州市委政法委書記

觀星賞月

2026-02-21 22:52:28

徐夢桃：我個人得到了第五枚奧運獎牌，沒準下一屆還能多兩塊

徐夢桃：我個人得到了第五枚奧運獎牌，沒準下一屆還能多兩塊

懂球帝

2026-02-22 07:57:40

湖人125-122險勝快船球員評價：2人滿分，4人及格，4人低迷

湖人125-122險勝快船球員評價：2人滿分，4人及格，4人低迷

籃球資訊達人

2026-02-21 14:03:53

大腦，心智，認知

2437文章數 25485關注度

往期回顧全部

科技要聞

馬斯克：星艦每年將發射超過10000顆衛星

頭條要聞

特朗普：將確定并公布新的、在法律上允許的關稅措施

頭條要聞

特朗普：將確定并公布新的、在法律上允許的關稅措施

體育要聞

徐夢桃：這是我第一塊銅牌給我換個吉祥物

娛樂要聞

裴世矩養侄為刃看懂兩次放行裴行儼！

財經要聞

特朗普新加征關稅稅率從10%提升至15%

汽車要聞

續航1810km！smart精靈#6 EHD超級電混2026年上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

親子

數碼

藝術

教育要聞

“只有窮人，才這樣教育子女！”家長讓孩子給外賣員送水，被群嘲

本地新聞

春花齊放2026：《駿馬奔騰迎新歲》

親子要聞

為什么小男孩小時候要比小女孩難養好多?網友：通常精力充沛

數碼要聞

2026中國電影票房暫列全球第一；小米17系列進軍全球市場

藝術要聞

這本書法，80%的人無法讀懂！網友直言：看到第二字就傻眼！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sub id="gz15r"><rt id="gz15r"></rt></sub>

<sub id="gz15r"></sub>