通過這門課的學習,我覺得我們的生活其實實與游戲問題息息相關的,而在這樣一個復雜的游戲領域,我們如何才能在游戲領域取得最大的利益是一個很大的學問。所以,博弈論是一門很有用的學科。閱讀了王則柯、李杰編著的《博弈論教程》一書,收獲頗多。
此書一共分為九章,通過自己對整本書的閱讀以及結合老師上課的詳細解說,可以認為博弈大致有以下幾種分類,按照博弈各方是否同時決策可以分為:同時決策博弈(靜態博弈)、序貫決策博弈(動態博弈)、同時決策博弈與序貫決策博弈的混合博弈。按照大家是否清楚各種對局情況下每個人的得益分為:
完全信息博弈和不完全信息博弈。自由組合一下啊,就會發現博弈的四大部分:完全信息的靜態博弈、不完全信息的靜態博弈、完全信息的動態博弈、不完全信息的動態博弈。
一、同時決策博弈
1、納什均衡的定義:在博弈g=﹛s1,…,sn:u1,…,un﹜中,如果由各個博弈方的各一個策略組成的某個策論組合(s1*,…,sn*)中,任一博弈方i的策論si*,都是對其余博弈方策略的組合(s1*,…s*i-1,s*i+1,…,sn*)的最佳對策,也即ui(s1*,…s*i-1,si*,s*i+1,…,sn*)≥ui(s1*,…s*i-1,sij*,s*i+1,…,sn*)對任意sij∈si都成立,則稱(s1*,…,sn*)為g的一個納什均衡。
優勢策略有嚴格優勢策略和弱優勢策略之分,可以用嚴格劣勢策略逐次消去法尋找納什均衡。相對優勢策略可以利用相對優勢策略劃線法或者箭頭指向法尋找納什均衡。
2、混合策略納什均衡
有時納什均衡不是唯一的,有時納什均衡不存在,有時根據上述方法無法得到博弈結果,因此需要發展納什均衡?;旌喜呗院图儾呗缘膮^別在于,玩家可以根據一定的概率從策略組合中隨機選擇一個純策略作為實際行動。
混合策略:在一個有n個博弈者的策略博弈中,假設博弈者有一個純策略,即概率分布,稱為博弈者的混合策略。這里是玩家選擇純策略的概率。混合策略納什均衡:
在n個博弈者的博弈中,混合策略的組合構成納什均衡。如果所有i=1,2,…,n下式成立:
利用反應函數法和直線交叉法,建立了同時決策有限對策的混合策略納什均衡。當存在多重納什均衡時,應采用帕累托優勢標準或風險優勢標準進行篩選。
帕累托效率標準:經濟的效率體現在配置社會資源以及改善人們的情況,主要看資源是否被充分利用,要想再改
查看更多>>>你是否想要撰寫一篇出色的讀后感?讀完一本作品后,我們可以嘗試寫下我們的感受。今天欄目小編要為大家介紹的是一篇關于“博弈論讀后感”的文章,請繼續關注我們的網站以獲取更多信息!
博弈論讀后感(篇1)博弈小術語: 收益矩陣、均衡、納什均衡、零和博弈論,也稱互動的決策論。它的基本假設之一是人是理性的。但現實并非如此,人不可能具有完備的知識也不可能時時理性。盡管如此,人們仍然樂意用博弈論的方法來解釋和分析現實社會現象。
每一次的人際交往都可以簡化成兩個基本選擇:合作或背叛。比如在前面的日志里提到的囚徒困境,在人際交往中普遍存在囚徒困境:雙方明知合作能帶來雙贏,卻因為理性的自私和信任的缺乏而導致合作難以形成。當一次性博弈出現時,人們往往會選擇背叛。這在現實生活中也有很多例子,比如飛機場,為什么食品價格敢定那么高呢?因為它知道候機的乘客不會是它的長期客戶。而當博弈的終點不可知時,就又是另一回事了。
在多次博弈中,背叛仍不可避免,但合作的幾率會相比一次博弈有提高。至于如何更加有效地減少背叛,一種辦法是引入懲罰機制,可以是帶劍的法律或溫和些的道德約束。現實中的集體活動等候上車問題就是個例子,讓那些遲到的人自己負責任就是一種懲罰措施。
當然,如果在開頭就有一些善意的人出來表明合作態度對提高合作機會也是有幫助的,不管這些善意的人是出于何種目的。一旦合作開始,人們就能體驗到合作的好處,并樂于堅持一段時間。至于時間的長短,關鍵是看博弈的終點是否明確。這在上面也提到了,如果終點明確,人們就會傾向于在最后一次背叛。而當大家都知道對方會這樣想時,倒數第二次就會成為新的終點,新的背叛。如此反復推演,合作從一開始就很難形成。注意上面的論述是基于沒有懲罰機制的基礎。
有一個很有意思的實驗,是由愛克斯羅德完成的。這是一個計算機模擬競賽,參賽的62位科學家遞交了自己寫的關于博弈策略的代碼,同時加上愛克斯羅德本人寫的一個隨即策略代碼,共63個。結果表明,前15名中只有第8名是非善意的程序,最后15名只有一個善意的,奪魁的是一報還一報策略。
這個實力不凡的一報還一報策略就是對方選擇什么我就回應什么,你合作我就合作,你背叛我也背叛。這種策略體現的是善良、可激怒、寬容、簡單等好品質。雖然該策略在每次對局中分數都不能超過對手,但它的總分卻是最高的。它賴以生存的基礎很牢固。而那個非善意程序的成功是建立在別人的失敗
查看更多>>>