網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

什么是納什均衡

2026-02-09 08:20:55　來源: xinyan

河北舉報(bào)

分享至

諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者薩繆爾森曾經(jīng)說：如果你想把一只鸚鵡訓(xùn)練成經(jīng)濟(jì)學(xué)家，只需要讓它掌握兩個(gè)詞語：供給與需求。后來博弈論專家坎多瑞又補(bǔ)充道：想成為經(jīng)濟(jì)學(xué)家，只懂得供給與需求還不夠，你還需要多掌握一個(gè)詞，那就是“納什均衡”。“納什均衡”的概念來自納什的兩篇論文《N人博弈中的均衡點(diǎn)》和《非合作博弈》，納什在論文中介紹了合作性博弈與非合作性博弈的區(qū)別，并給出了“納什均衡”的定義。“納什均衡”，簡單地說就是在多人參加的博弈中，每個(gè)人根據(jù)他人的策略制定自己的最優(yōu)策略。所有人的這些策略組成一個(gè)策略組合，在這個(gè)策略組合中，沒有人會(huì)主動(dòng)改變自己的策略，那樣會(huì)降低他的收益。只要沒有人做出策略調(diào)整，任何一個(gè)理性的參與者不會(huì)主動(dòng)改變自己的策略。這個(gè)時(shí)候，所有參與者的策略便達(dá)成一種平衡，這種平衡便是“納什均衡”。博弈論是應(yīng)用數(shù)學(xué)的分支，因此最嚴(yán)謹(jǐn)?shù)摹凹{什均衡”表達(dá)方式需要用數(shù)學(xué)公式?！凹{什均衡”的一個(gè)特別之處在于通俗易懂，有人把“納什均衡”比喻成鍋里的乒乓球。如果你把幾個(gè)乒乓球放到鍋里，它們便會(huì)向鍋底滾去，并在鍋底相互碰撞，最后停住不動(dòng)的時(shí)候便達(dá)成了一種平衡，這個(gè)時(shí)候如果動(dòng)了其中的一個(gè)，其他乒乓球便會(huì)受影響，如果想要保持這種平衡，就不能動(dòng)其中任何一個(gè)乒乓球，一直保持下去。這個(gè)比喻中，乒乓球代表各參與者的策略，乒乓球最后停留在鍋底形成的平衡便是“納什均衡”。“囚徒博弈”這個(gè)案例前面我們已經(jīng)介紹過了，它是“納什均衡”最有名的案例，我們?cè)俸唵位叵胍幌?。甲、乙兩位盜賊犯罪后被警察抓住，警察對(duì)他們進(jìn)行單獨(dú)審訊，并分別告訴他們：如果方坦白招供，另一方抵賴、拒不認(rèn)罪，那么招供一方可以當(dāng)即釋放，抵賴的一方則要判刑10年；如果雙方都認(rèn)罪，每人判8年；如果雙方都拒不認(rèn)罪，那么警方會(huì)因?yàn)樽C據(jù)不足，只能判處他們私闖民宅，不能判處他們?nèi)胧冶I竊，每人只判1年。“納什均衡”中，一方會(huì)根據(jù)對(duì)方的策略制定自己的最優(yōu)策略。通過上面圖表可以看出“囚徒困境”中包含著兩個(gè)“納什均衡”：(8,8）和(1,1）。如果罪犯甲選擇坦白，罪犯乙的最優(yōu)策略也是選擇坦白；如果罪犯甲選擇不坦白，罪犯乙的最優(yōu)策略也是選擇不坦白。其中，兩名罪犯都選擇不坦白得到的“納什均衡”是一種好均衡，雙方都選擇坦白得到的均衡是一種壞均衡。這個(gè)案例中，由于兩人被隔離審訊，不能串供，因此都不知道對(duì)方的策略。這個(gè)時(shí)候，受到自保的本能和心理的影響，他們會(huì)選擇坦白。原因很簡單，若是坦白最多坐8年牢，若是不坦白最多坐10年牢。再說了，要是僥幸同伙不坦白而自己坦白的話，就可以當(dāng)即釋放了。這樣來看，坦白是最好的選擇。其實(shí)，他的同伙也是這樣想的，也選擇坦白，最終兩人每人被判8年，警察收到了自己滿意的結(jié)果。由于信息的不溝通，兩人為了自己最大利益的追求放棄了好的均衡，選擇了壞的均衡。根據(jù)“納什均衡”的定義我們可以知道，一場博弈中并不一定一個(gè)“納什均衡”，但是均衡之間有好壞之分。比如“囚徒困境”兩名囚犯同時(shí)選擇不坦白，得到的均衡便是好的均衡。同時(shí)選擇坦白得到的均衡便是壞的均衡。好均衡的結(jié)果是雙方受益，壞均衡的結(jié)果是雙方虧損，或者受益沒有好均衡那樣多。“納什均衡”中各方策略的制定都是對(duì)對(duì)方策略的最佳反應(yīng)，以自己爭取最大利益為目的，好均衡與壞均衡都是如此。好均衡與壞均衡之間有時(shí)候可以轉(zhuǎn)換。古時(shí)候，楚國和魏國交界處有一個(gè)小縣城，城中的居民都以種瓜為生。有一年，天氣大旱。魏國一邊的村民比較勤勞，白天挑水澆瓜，瓜苗長勢喜人；而楚國一邊的村民比較懶，所以瓜苗長得又枯又黃。楚國村民看著魏國一邊的瓜苗綠油油一片，而自己這邊又枯又黃，于是心生嫉妒，夜里組織人到魏國一邊去搞破壞，將瓜苗拔出來扔到一邊。魏國的村民知道之后，非常氣憤，決定以牙還牙，報(bào)復(fù)楚國的村民。但是，村長卻反對(duì)這樣做。他認(rèn)為報(bào)復(fù)的結(jié)局是兩敗俱傷，最終兩個(gè)村到了秋后誰也收獲不了瓜。最后村主任提出了一個(gè)想法，那就是以德報(bào)怨，晚上組織村民偷偷到楚國一邊的村莊田地里，替他們給瓜苗澆水。村民們按照村主任說的去做，最后楚國的村民看到自己田里的瓜變綠了，并且知道是魏國的村民晚上來偷偷澆水，都感到非常羞愧。為了表示歉意，楚國村民晚上偷偷到魏國村莊的田地里去替他們重新種上了瓜苗。最終，雙方平安無事，從此和諧相處。下面將其中的T均奧定口可收大，制作成一個(gè)簡單的博弈模型。假設(shè)選擇去損毀對(duì)方瓜苗為A策略，而選擇以德報(bào)怨、相互幫助為B策略。瓜苗被損毀，所得利益為0；沒有被損毀，所得利益為10。這樣我們就會(huì)得到一個(gè)簡單的博弈矩陣圖：這場博弈中存在兩個(gè)“納什均衡”；如果一方選擇損毀對(duì)方瓜苗，另一方的最優(yōu)對(duì)應(yīng)策略是選擇報(bào)復(fù)；再一個(gè)便是雙方同時(shí)選擇相互幫助。兩個(gè)均衡的結(jié)果也截然相反，第一個(gè)均衡的結(jié)局是(0,0），兩敗俱傷；第二個(gè)均衡的結(jié)果是(10,10），實(shí)現(xiàn)雙贏。可見雙方相互報(bào)復(fù)的平衡是壞平衡，相互幫助的平衡是好平衡。很明顯，(A,A）的策略組合是一種壞的策略組合，因?yàn)樗鼤?huì)導(dǎo)致(0,0）的最壞結(jié)局。不過，這仍是一種“納什均衡”。因?yàn)楫?dāng)對(duì)方選擇A策略的時(shí)候，你的最優(yōu)選擇也是A策略，這個(gè)時(shí)候形成的策略組合便是“納什均衡”。同樣，(B,B）的策略組合也是“納什均衡”，(10,10）的結(jié)果是雙方都想得到的。(A,B）和(B,A）的策略組合不是“納什均衡”。這也說明一場博弈中可以有多個(gè)“納什均衡”，并且有優(yōu)劣之分。故事中楚國最先選擇了A策略，按照博弈論的分析選擇A策略是魏國最好的回應(yīng)，也就是以牙還牙。這種想法非常符合我們?nèi)粘５男袨榱?xí)慣，你不讓我好過，我也不讓你好過。這樣選擇的結(jié)果將會(huì)達(dá)成一種平衡，不過是壞的平衡。但是魏國人沒有選擇報(bào)復(fù)，而是用行動(dòng)來感化對(duì)方，選擇了B策略。最終楚國人被感化，也選擇了B策略，雙方達(dá)成了一種新的均衡。這時(shí)候的均衡是一種好的“納什均衡”。這里面存在一個(gè)問題，那就是博弈模型同現(xiàn)實(shí)情況之間的差異。理性的博弈分析中，選擇報(bào)復(fù)是最優(yōu)決策。而現(xiàn)實(shí)情況中則要考慮很多其他影響因素，比如以后低頭不見抬頭見之類的。以德報(bào)怨不是博弈分析中的最優(yōu)決策，但是卻可以解決現(xiàn)實(shí)問題。相互報(bào)復(fù)會(huì)陷入惡性循環(huán)，“冤冤相報(bào)何時(shí)了”，所以即使不能感化對(duì)方，也不應(yīng)該采取報(bào)復(fù)。再說，魏國村民之所以會(huì)做出以德報(bào)怨的決策，肯定是對(duì)楚國村民的民風(fēng)民俗很了解，知道他們會(huì)被感化。若是水火不容的敵人之間，則不會(huì)有忍讓。這些都是出于對(duì)現(xiàn)實(shí)情況的考慮。

“納什均衡”的概念來自納什的兩篇論文《N人博弈中的均衡點(diǎn)》和《非合作博弈》，納什在論文中介紹了合作性博弈與非合作性博弈的區(qū)別，并給出了“納什均衡”的定義。

“納什均衡”，簡單地說就是在多人參加的博弈中，每個(gè)人根據(jù)他人的策略制定自己的最優(yōu)策略。所有人的這些策略組成一個(gè)策略組合，在這個(gè)策略組合中，沒有人會(huì)主動(dòng)改變自己的策略，那樣會(huì)降低他的收益。只要沒有人做出策略調(diào)整，任何一個(gè)理性的參與者不會(huì)主動(dòng)改變自己的策略。這個(gè)時(shí)候，所有參與者的策略便達(dá)成一種平衡，這種平衡便是“納什均衡”。

博弈論是應(yīng)用數(shù)學(xué)的分支，因此最嚴(yán)謹(jǐn)?shù)摹凹{什均衡”表達(dá)方式需要用數(shù)學(xué)公式。

“納什均衡”的一個(gè)特別之處在于通俗易懂，有人把“納什均衡”比喻成鍋里的乒乓球。如果你把幾個(gè)乒乓球放到鍋里，它們便會(huì)向鍋底滾去，并在鍋底相互碰撞，最后停住不動(dòng)的時(shí)候便達(dá)成了一種平衡，這個(gè)時(shí)候如果動(dòng)了其中的一個(gè)，其他乒乓球便會(huì)受影響，如果想要保持這種平衡，就不能動(dòng)其中任何一個(gè)乒乓球，一直保持下去。這個(gè)比喻中，乒乓球代表各參與者的策略，乒乓球最后停留在鍋底形成的平衡便是“納什均衡”。

“囚徒博弈”這個(gè)案例前面我們已經(jīng)介紹過了，它是“納什均衡”最有名的案例，我們?cè)俸唵位叵胍幌?。甲、乙兩位盜賊犯罪后被警察抓住，警察對(duì)他們進(jìn)行單獨(dú)審訊，并分別告訴他們：如果方坦白招供，另一方抵賴、拒不認(rèn)罪，那么招供一方可以當(dāng)即釋放，抵賴的一方則要判刑10年；如果雙方都認(rèn)罪，每人判8年；如果雙方都拒不認(rèn)罪，那么警方會(huì)因?yàn)樽C據(jù)不足，只能判處他們私闖民宅，不能判處他們?nèi)胧冶I竊，每人只判1年。

“納什均衡”中，一方會(huì)根據(jù)對(duì)方的策略制定自己的最優(yōu)策略。通過上面圖表可以看出“囚徒困境”中包含著兩個(gè)“納什均衡”：(8,8）和(1,1）。如果罪犯甲選擇坦白，罪犯乙的最優(yōu)策略也是選擇坦白；如果罪犯甲選擇不坦白，罪犯乙的最優(yōu)策略也是選擇不坦白。其中，兩名罪犯都選擇不坦白得到的“納什均衡”是一種好均衡，雙方都選擇坦白得到的均衡是一種壞均衡。

這個(gè)案例中，由于兩人被隔離審訊，不能串供，因此都不知道對(duì)方的策略。這個(gè)時(shí)候，受到自保的本能和心理的影響，他們會(huì)選擇坦白。原因很簡單，若是坦白最多坐8年牢，若是不坦白最多坐10年牢。再說了，要是僥幸同伙不坦白而自己坦白的話，就可以當(dāng)即釋放了。這樣來看，坦白是最好的選擇。其實(shí)，他的同伙也是這樣想的，也選擇坦白，最終兩人每人被判8年，警察收到了自己滿意的結(jié)果。由于信息的不溝通，兩人為了自己最大利益的追求放棄了好的均衡，選擇了壞的均衡。

根據(jù)“納什均衡”的定義我們可以知道，一場博弈中并不一定一個(gè)“納什均衡”，但是均衡之間有好壞之分。比如“囚徒困境”兩名囚犯同時(shí)選擇不坦白，得到的均衡便是好的均衡。同時(shí)選擇坦白得到的均衡便是壞的均衡。好均衡的結(jié)果是雙方受益，壞均衡的結(jié)果是雙方虧損，或者受益沒有好均衡那樣多?！凹{什均衡”中各方策略的制定都是對(duì)對(duì)方策略的最佳反應(yīng)，以自己爭取最大利益為目的，好均衡與壞均衡都是如此。

好均衡與壞均衡之間有時(shí)候可以轉(zhuǎn)換。古時(shí)候，楚國和魏國交界處有一個(gè)小縣城，城中的居民都以種瓜為生。有一年，天氣大旱。魏國一邊的村民比較勤勞，白天挑水澆瓜，瓜苗長勢喜人；而楚國一邊的村民比較懶，所以瓜苗長得又枯又黃。楚國村民看著魏國一邊的瓜苗綠油油一片，而自己這邊又枯又黃，于是心生嫉妒，夜里組織人到魏國一邊去搞破壞，將瓜苗拔出來扔到一邊。

魏國的村民知道之后，非常氣憤，決定以牙還牙，報(bào)復(fù)楚國的村民。但是，村長卻反對(duì)這樣做。他認(rèn)為報(bào)復(fù)的結(jié)局是兩敗俱傷，最終兩個(gè)村到了秋后誰也收獲不了瓜。最后村主任提出了一個(gè)想法，那就是以德報(bào)怨，晚上組織村民偷偷到楚國一邊的村莊田地里，替他們給瓜苗澆水。

村民們按照村主任說的去做，最后楚國的村民看到自己田里的瓜變綠了，并且知道是魏國的村民晚上來偷偷澆水，都感到非常羞愧。為了表示歉意，楚國村民晚上偷偷到魏國村莊的田地里去替他們重新種上了瓜苗。最終，雙方平安無事，從此和諧相處。

下面將其中的T均奧定口可收大，制作成一個(gè)簡單的博弈模型。假設(shè)選擇去損毀對(duì)方瓜苗為A策略，而選擇以德報(bào)怨、相互幫助為B策略。瓜苗被損毀，所得利益為0；沒有被損毀，所得利益為10。這樣我們就會(huì)得到一個(gè)簡單的博弈矩陣圖：

這場博弈中存在兩個(gè)“納什均衡”；如果一方選擇損毀對(duì)方瓜苗，另一方的最優(yōu)對(duì)應(yīng)策略是選擇報(bào)復(fù)；再一個(gè)便是雙方同時(shí)選擇相互幫助。兩個(gè)均衡的結(jié)果也截然相反，第一個(gè)均衡的結(jié)局是(0,0），兩敗俱傷；第二個(gè)均衡的結(jié)果是(10,10），實(shí)現(xiàn)雙贏?？梢婋p方相互報(bào)復(fù)的平衡是壞平衡，相互幫助的平衡是好平衡。

很明顯，(A,A）的策略組合是一種壞的策略組合，因?yàn)樗鼤?huì)導(dǎo)致(0,0）的最壞結(jié)局。不過，這仍是一種“納什均衡”。因?yàn)楫?dāng)對(duì)方選擇A策略的時(shí)候，你的最優(yōu)選擇也是A策略，這個(gè)時(shí)候形成的策略組合便是“納什均衡”。同樣，(B,B）的策略組合也是“納什均衡”，(10,10）的結(jié)果是雙方都想得到的。(A,B）和(B,A）的策略組合不是“納什均衡”。這也說明一場博弈中可以有多個(gè)“納什均衡”，并且有優(yōu)劣之分。

故事中楚國最先選擇了A策略，按照博弈論的分析選擇A策略是魏國最好的回應(yīng)，也就是以牙還牙。這種想法非常符合我們?nèi)粘５男袨榱?xí)慣，你不讓我好過，我也不讓你好過。這樣選擇的結(jié)果將會(huì)達(dá)成一種平衡，不過是壞的平衡。但是魏國人沒有選擇報(bào)復(fù)，而是用行動(dòng)來感化對(duì)方，選擇了B策略。最終楚國人被感化，也選擇了B策略，雙方達(dá)成了一種新的均衡。這時(shí)候的均衡是一種好的“納什均衡”。

這里面存在一個(gè)問題，那就是博弈模型同現(xiàn)實(shí)情況之間的差異。理性的博弈分析中，選擇報(bào)復(fù)是最優(yōu)決策。而現(xiàn)實(shí)情況中則要考慮很多其他影響因素，比如以后低頭不見抬頭見之類的。以德報(bào)怨不是博弈分析中的最優(yōu)決策，但是卻可以解決現(xiàn)實(shí)問題。相互報(bào)復(fù)會(huì)陷入惡性循環(huán)，“冤冤相報(bào)何時(shí)了”，所以即使不能感化對(duì)方，也不應(yīng)該采取報(bào)復(fù)。再說，魏國村民之所以會(huì)做出以德報(bào)怨的決策，肯定是對(duì)楚國村民的民風(fēng)民俗很了解，知道他們會(huì)被感化。若是水火不容的敵人之間，則不會(huì)有忍讓。這些都是出于對(duì)現(xiàn)實(shí)情況的考慮。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.