諾貝爾經濟學獎獲得者薩繆爾森曾經說:如果你想把一只鸚鵡訓練成經濟學家,只需要讓它掌握兩個詞語:供給與需求。后來博弈論專家坎多瑞又補充道:想成為經濟學家,只懂得供給與需求還不夠,你還需要多掌握一個詞,那就是“納什均衡”。“納什均衡”的概念來自納什的兩篇論文《N人博弈中的均衡點》和《非合作博弈》,納什在論文中介紹了合作性博弈與非合作性博弈的區別,并給出了“納什均衡”的定義。“納什均衡”,簡單地說就是在多人參加的博弈中,每個人根據他人的策略制定自己的最優策略。所有人的這些策略組成一個策略組合,在這個策略組合中,沒有人會主動改變自己的策略,那樣會降低他的收益。只要沒有人做出策略調整,任何一個理性的參與者不會主動改變自己的策略。這個時候,所有參與者的策略便達成一種平衡,這種平衡便是“納什均衡”。博弈論是應用數學的分支,因此最嚴謹的“納什均衡”表達方式需要用數學公式。“納什均衡”的一個特別之處在于通俗易懂,有人把“納什均衡”比喻成鍋里的乒乓球。如果你把幾個乒乓球放到鍋里,它們便會向鍋底滾去,并在鍋底相互碰撞,最后停住不動的時候便達成了一種平衡,這個時候如果動了其中的一個,其他乒乓球便會受影響,如果想要保持這種平衡,就不能動其中任何一個乒乓球,一直保持下去。這個比喻中,乒乓球代表各參與者的策略,乒乓球最后停留在鍋底形成的平衡便是“納什均衡”。“囚徒博弈”這個案例前面我們已經介紹過了,它是“納什均衡”最有名的案例,我們再簡單回想一下。甲、乙兩位盜賊犯罪后被警察抓住,警察對他們進行單獨審訊,并分別告訴他們:如果方坦白招供,另一方抵賴、拒不認罪,那么招供一方可以當即釋放,抵賴的一方則要判刑10年;如果雙方都認罪,每人判8年;如果雙方都拒不認罪,那么警方會因為證據不足,只能判處他們私闖民宅,不能判處他們入室盜竊,每人只判1年。“納什均衡”中,一方會根據對方的策略制定自己的最優策略。通過上面圖表可以看出“囚徒困境”中包含著兩個“納什均衡”:(8,8)和(1,1)。如果罪犯甲選擇坦白,罪犯乙的最優策略也是選擇坦白;如果罪犯甲選擇不坦白,罪犯乙的最優策略也是選擇不坦白。其中,兩名罪犯都選擇不坦白得到的“納什均衡”是一種好均衡,雙方都選擇坦白得到的均衡是一種壞均衡。這個案例中,由于兩人被隔離審訊,不能串供,因此都不知道對方的策略。這個時候,受到自保的本能和心理的影響,他們會選擇坦白。原因很簡單,若是坦白最多坐8年牢,若是不坦白最多坐10年牢。再說了,要是僥幸同伙不坦白而自己坦白的話,就可以當即釋放了。這樣來看,坦白是最好的選擇。其實,他的同伙也是這樣想的,也選擇坦白,最終兩人每人被判8年,警察收到了自己滿意的結果。由于信息的不溝通,兩人為了自己最大利益的追求放棄了好的均衡,選擇了壞的均衡。根據“納什均衡”的定義我們可以知道,一場博弈中并不一定一個“納什均衡”,但是均衡之間有好壞之分。比如“囚徒困境”兩名囚犯同時選擇不坦白,得到的均衡便是好的均衡。同時選擇坦白得到的均衡便是壞的均衡。好均衡的結果是雙方受益,壞均衡的結果是雙方虧損,或者受益沒有好均衡那樣多。“納什均衡”中各方策略的制定都是對對方策略的最佳反應,以自己爭取最大利益為目的,好均衡與壞均衡都是如此。好均衡與壞均衡之間有時候可以轉換。古時候,楚國和魏國交界處有一個小縣城,城中的居民都以種瓜為生。有一年,天氣大旱。魏國一邊的村民比較勤勞,白天挑水澆瓜,瓜苗長勢喜人;而楚國一邊的村民比較懶,所以瓜苗長得又枯又黃。楚國村民看著魏國一邊的瓜苗綠油油一片,而自己這邊又枯又黃,于是心生嫉妒,夜里組織人到魏國一邊去搞破壞,將瓜苗拔出來扔到一邊。魏國的村民知道之后,非常氣憤,決定以牙還牙,報復楚國的村民。但是,村長卻反對這樣做。他認為報復的結局是兩敗俱傷,最終兩個村到了秋后誰也收獲不了瓜。最后村主任提出了一個想法,那就是以德報怨,晚上組織村民偷偷到楚國一邊的村莊田地里,替他們給瓜苗澆水。村民們按照村主任說的去做,最后楚國的村民看到自己田里的瓜變綠了,并且知道是魏國的村民晚上來偷偷澆水,都感到非常羞愧。為了表示歉意,楚國村民晚上偷偷到魏國村莊的田地里去替他們重新種上了瓜苗。最終,雙方平安無事,從此和諧相處。下面將其中的T均奧定口可收大,制作成一個簡單的博弈模型。假設選擇去損毀對方瓜苗為A策略,而選擇以德報怨、相互幫助為B策略。瓜苗被損毀,所得利益為0;沒有被損毀,所得利益為10。這樣我們就會得到一個簡單的博弈矩陣圖:這場博弈中存在兩個“納什均衡”;如果一方選擇損毀對方瓜苗,另一方的最優對應策略是選擇報復;再一個便是雙方同時選擇相互幫助。兩個均衡的結果也截然相反,第一個均衡的結局是(0,0),兩敗俱傷;第二個均衡的結果是(10,10),實現雙贏。可見雙方相互報復的平衡是壞平衡,相互幫助的平衡是好平衡。很明顯,(A,A)的策略組合是一種壞的策略組合,因為它會導致(0,0)的最壞結局。不過,這仍是一種“納什均衡”。因為當對方選擇A策略的時候,你的最優選擇也是A策略,這個時候形成的策略組合便是“納什均衡”。同樣,(B,B)的策略組合也是“納什均衡”,(10,10)的結果是雙方都想得到的。(A,B)和(B,A)的策略組合不是“納什均衡”。這也說明一場博弈中可以有多個“納什均衡”,并且有優劣之分。故事中楚國最先選擇了A策略,按照博弈論的分析 選擇A策略是魏國最好的回應,也就是以牙還牙。這種想法非常符合我們日常的行為習慣,你不讓我好過,我也不讓你好過。這樣選擇的結果將會達成一種平衡,不過是壞的平衡。但是魏國人沒有選擇報復,而是用行動來感化對方,選擇了B策略。最終楚國人被感化,也選擇了B策略,雙方達成了一種新的均衡。這時候的均衡是一種好的“納什均衡”。這里面存在一個問題,那就是博弈模型同現實情況之間的差異。理性的博弈分析中,選擇報復是最優決策。而現實情況中則要考慮很多其他影響因素,比如以后低頭不見抬頭見之類的。以德報怨不是博弈分析中的最優決策,但是卻可以解決現實問題。相互報復會陷入惡性循環,“冤冤相報何時了”,所以即使不能感化對方,也不應該采取報復。再說,魏國村民之所以會做出以德報怨的決策,肯定是對楚國村民的民風民俗很了解,知道他們會被感化。若是水火不容的敵人之間,則不會有忍讓。這些都是出于對現實情況的考慮。
諾貝爾經濟學獎獲得者薩繆爾森曾經說:如果你想把一只鸚鵡訓練成經濟學家,只需要讓它掌握兩個詞語:供給與需求。后來博弈論專家坎多瑞又補充道:想成為經濟學家,只懂得供給與需求還不夠,你還需要多掌握一個詞,那就是“納什均衡”。
“納什均衡”的概念來自納什的兩篇論文《N人博弈中的均衡點》和《非合作博弈》,納什在論文中介紹了合作性博弈與非合作性博弈的區別,并給出了“納什均衡”的定義。
“納什均衡”,簡單地說就是在多人參加的博弈中,每個人根據他人的策略制定自己的最優策略。所有人的這些策略組成一個策略組合,在這個策略組合中,沒有人會主動改變自己的策略,那樣會降低他的收益。只要沒有人做出策略調整,任何一個理性的參與者不會主動改變自己的策略。這個時候,所有參與者的策略便達成一種平衡,這種平衡便是“納什均衡”。
博弈論是應用數學的分支,因此最嚴謹的“納什均衡”表達方式需要用數學公式。
“納什均衡”的一個特別之處在于通俗易懂,有人把“納什均衡”比喻成鍋里的乒乓球。如果你把幾個乒乓球放到鍋里,它們便會向鍋底滾去,并在鍋底相互碰撞,最后停住不動的時候便達成了一種平衡,這個時候如果動了其中的一個,其他乒乓球便會受影響,如果想要保持這種平衡,就不能動其中任何一個乒乓球,一直保持下去。這個比喻中,乒乓球代表各參與者的策略,乒乓球最后停留在鍋底形成的平衡便是“納什均衡”。
“囚徒博弈”這個案例前面我們已經介紹過了,它是“納什均衡”最有名的案例,我們再簡單回想一下。甲、乙兩位盜賊犯罪后被警察抓住,警察對他們進行單獨審訊,并分別告訴他們:如果方坦白招供,另一方抵賴、拒不認罪,那么招供一方可以當即釋放,抵賴的一方則要判刑10年;如果雙方都認罪,每人判8年;如果雙方都拒不認罪,那么警方會因為證據不足,只能判處他們私闖民宅,不能判處他們入室盜竊,每人只判1年。
“納什均衡”中,一方會根據對方的策略制定自己的最優策略。通過上面圖表可以看出“囚徒困境”中包含著兩個“納什均衡”:(8,8)和(1,1)。如果罪犯甲選擇坦白,罪犯乙的最優策略也是選擇坦白;如果罪犯甲選擇不坦白,罪犯乙的最優策略也是選擇不坦白。其中,兩名罪犯都選擇不坦白得到的“納什均衡”是一種好均衡,雙方都選擇坦白得到的均衡是一種壞均衡。
這個案例中,由于兩人被隔離審訊,不能串供,因此都不知道對方的策略。這個時候,受到自保的本能和心理的影響,他們會選擇坦白。原因很簡單,若是坦白最多坐8年牢,若是不坦白最多坐10年牢。再說了,要是僥幸同伙不坦白而自己坦白的話,就可以當即釋放了。這樣來看,坦白是最好的選擇。其實,他的同伙也是這樣想的,也選擇坦白,最終兩人每人被判8年,警察收到了自己滿意的結果。由于信息的不溝通,兩人為了自己最大利益的追求放棄了好的均衡,選擇了壞的均衡。
根據“納什均衡”的定義我們可以知道,一場博弈中并不一定一個“納什均衡”,但是均衡之間有好壞之分。比如“囚徒困境”兩名囚犯同時選擇不坦白,得到的均衡便是好的均衡。同時選擇坦白得到的均衡便是壞的均衡。好均衡的結果是雙方受益,壞均衡的結果是雙方虧損,或者受益沒有好均衡那樣多。“納什均衡”中各方策略的制定都是對對方策略的最佳反應,以自己爭取最大利益為目的,好均衡與壞均衡都是如此。
好均衡與壞均衡之間有時候可以轉換。古時候,楚國和魏國交界處有一個小縣城,城中的居民都以種瓜為生。有一年,天氣大旱。魏國一邊的村民比較勤勞,白天挑水澆瓜,瓜苗長勢喜人;而楚國一邊的村民比較懶,所以瓜苗長得又枯又黃。楚國村民看著魏國一邊的瓜苗綠油油一片,而自己這邊又枯又黃,于是心生嫉妒,夜里組織人到魏國一邊去搞破壞,將瓜苗拔出來扔到一邊。
魏國的村民知道之后,非常氣憤,決定以牙還牙,報復楚國的村民。但是,村長卻反對這樣做。他認為報復的結局是兩敗俱傷,最終兩個村到了秋后誰也收獲不了瓜。最后村主任提出了一個想法,那就是以德報怨,晚上組織村民偷偷到楚國一邊的村莊田地里,替他們給瓜苗澆水。
村民們按照村主任說的去做,最后楚國的村民看到自己田里的瓜變綠了,并且知道是魏國的村民晚上來偷偷澆水,都感到非常羞愧。為了表示歉意,楚國村民晚上偷偷到魏國村莊的田地里去替他們重新種上了瓜苗。最終,雙方平安無事,從此和諧相處。
下面將其中的T均奧定口可收大,制作成一個簡單的博弈模型。假設選擇去損毀對方瓜苗為A策略,而選擇以德報怨、相互幫助為B策略。瓜苗被損毀,所得利益為0;沒有被損毀,所得利益為10。這樣我們就會得到一個簡單的博弈矩陣圖:
這場博弈中存在兩個“納什均衡”;如果一方選擇損毀對方瓜苗,另一方的最優對應策略是選擇報復;再一個便是雙方同時選擇相互幫助。兩個均衡的結果也截然相反,第一個均衡的結局是(0,0),兩敗俱傷;第二個均衡的結果是(10,10),實現雙贏。可見雙方相互報復的平衡是壞平衡,相互幫助的平衡是好平衡。
很明顯,(A,A)的策略組合是一種壞的策略組合,因為它會導致(0,0)的最壞結局。不過,這仍是一種“納什均衡”。因為當對方選擇A策略的時候,你的最優選擇也是A策略,這個時候形成的策略組合便是“納什均衡”。同樣,(B,B)的策略組合也是“納什均衡”,(10,10)的結果是雙方都想得到的。(A,B)和(B,A)的策略組合不是“納什均衡”。這也說明一場博弈中可以有多個“納什均衡”,并且有優劣之分。
故事中楚國最先選擇了A策略,按照博弈論的分析 選擇A策略是魏國最好的回應,也就是以牙還牙。這種想法非常符合我們日常的行為習慣,你不讓我好過,我也不讓你好過。這樣選擇的結果將會達成一種平衡,不過是壞的平衡。但是魏國人沒有選擇報復,而是用行動來感化對方,選擇了B策略。最終楚國人被感化,也選擇了B策略,雙方達成了一種新的均衡。這時候的均衡是一種好的“納什均衡”。
這里面存在一個問題,那就是博弈模型同現實情況之間的差異。理性的博弈分析中,選擇報復是最優決策。而現實情況中則要考慮很多其他影響因素,比如以后低頭不見抬頭見之類的。以德報怨不是博弈分析中的最優決策,但是卻可以解決現實問題。相互報復會陷入惡性循環,“冤冤相報何時了”,所以即使不能感化對方,也不應該采取報復。再說,魏國村民之所以會做出以德報怨的決策,肯定是對楚國村民的民風民俗很了解,知道他們會被感化。若是水火不容的敵人之間,則不會有忍讓。這些都是出于對現實情況的考慮。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.