日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

博弈論與納什平衡

 阿樹 2008-12-30
博弈論與納什平衡
  博弈論(game theory)對人的基本假定是:人是理性的(rational,或者說自私的),理性的人是指他在具體策略選擇時的目的是使自己的利益最大化,博弈論研究的是理性的人之間如何進(jìn)行策略選擇的。
  納什(John Nash)編制的博弈論經(jīng)典故事"囚徒的困境",說明了非合作博弈及其均衡解的成立,故稱"納什平衡"。
  所有的博弈問題都會遇到三個要素。在囚徒的故事中,兩個囚徒是當(dāng)事人(players)又稱參與者;當(dāng)事人所做的選擇策略 (strategies)是承認(rèn)了殺人事實(shí),最后兩個人均贏得(payoffs)了中間的宣判結(jié)果。如果兩個囚徒之中有一個承認(rèn)殺人,另外一個抵賴,不承認(rèn)殺人,那么承認(rèn)者將會得到減刑處理,而抵賴者將會得到最嚴(yán)厲的死刑判決,在納什故事中兩個人都承認(rèn)了犯罪事實(shí),所以兩個囚徒得到的是中間的結(jié)果。
  類似的: 我們也能從“自私的基因”等理論中看到“納什平衡”的體現(xiàn)。
  在互聯(lián)網(wǎng)這個原始叢林中:最優(yōu)策略是如何產(chǎn)生的呢?
[編輯]博弈中最優(yōu)策略的產(chǎn)生
  艾克斯羅德(Robert Axelrod)在開始研究合作之前,設(shè)定了兩個前提:一、每個人都是自私的;二、沒有權(quán)威干預(yù)個人決策。也就是說,個人可以完全按照自己利益最大化的企圖進(jìn)行決策。在此前提下,合作要研究的問題是:第一、人為什么要合作;第二、人什么時候是合作的,什么時候又是不合作的;第三、如何使別人與你合作。
  社會實(shí)踐中有很多合作的問題。比如國家之間的關(guān)稅報復(fù),對他國產(chǎn)品提高關(guān)稅有利于保護(hù)本國的經(jīng)濟(jì),但是國家之間互提關(guān)稅,產(chǎn)品價格就提高了,喪失了競爭力,損害了國際貿(mào)易的互補(bǔ)優(yōu)勢。在對策中,由于雙方各自追求自己利益的最大化,導(dǎo)致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。
  A和B各表示一個人,他們的選擇是完全無差異的。選擇C代表合作,選擇D代表不合作。如果AB都選擇C合作,則兩人各得3分;如果一方選C,一方選D,則選C的得零分,選D的得5分;如果AB都選D,雙方各得1分。
  顯然,對群體來說最好的結(jié)果是雙方都選C,各得3分,共得6分。如果一方選C,一方選D,總體得5分。如果兩人都選D,總體得2分。
  對策學(xué)界用這個矩陣來描述個體理性與群體理性的沖突:每個人在追求個體利益最大化時,就使群體利益受損,這就是囚徒困境。在矩陣中,對于A來說,當(dāng)對方選 C,他選D得5分,選C只得3分;當(dāng)對方選D,他選D得1分,選C得零分。因此,無論對方選C或D,對A來說,選D都得分最多。這是A單方面的優(yōu)超策略。而當(dāng)兩個優(yōu)超策略相遇,即A,B都選D時,結(jié)果是各得1分。這個結(jié)果在矩陣中并非最優(yōu)。困境就在于,每個人采取各自的優(yōu)超策略時,得出的解是穩(wěn)定的,但不是帕累托最優(yōu)的,這個結(jié)果體現(xiàn)了個體理性與群體理性的矛盾。在數(shù)學(xué)上,這個一次性決策的矩陣沒有最優(yōu)解。
  如果博弈進(jìn)行多次,只要對策者知道博弈次數(shù),他們在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就沒有合作的必要,因此,在次數(shù)已知的多次博弈中,對策者沒有一次會合作。
  如果博弈在多人間進(jìn)行,而且次數(shù)未知,對策者就會意識到,當(dāng)持續(xù)地采取合作并達(dá)成默契時,對策者就能持續(xù)地各得3分,但如果持續(xù)地不合作的話,每個人就永遠(yuǎn)得1分。這樣,合作的動機(jī)就顯現(xiàn)出來。多次對局下,未來的收益應(yīng)比現(xiàn)在的收益多一個折現(xiàn)率W,W越大,表示未來的收益越重要。在多人對策持續(xù)進(jìn)行下去,且W比較大,即未來充分重要時,最優(yōu)的策略是與別人采取的策略有關(guān)的。假設(shè)某人的策略是,第一次合作,以后只要對方不合作一次,他就永不合作。對這種對策者,當(dāng)然合作下去是上策。假如有的人不管對方采取什么策略,他總是合作,那么總是對他采取不合作的策略得分最多。對于總是不合作的人,也只能采取不合作的策略。
  艾克斯羅德做了一個實(shí)驗(yàn),邀請多人來參加游戲,得分規(guī)則與前面的矩陣相同,什么時候結(jié)束游戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機(jī)程序,然后用單循環(huán)賽的方式將參賽程序兩兩博弈,以找出什么樣的策略得分最高。
  第一輪游戲有14個程序參加,再加上艾克斯羅德自己的一個隨機(jī)程序(即以50%的概率選取合作或不合作),運(yùn)轉(zhuǎn)了300次。結(jié)果得分最高的程序是加拿大學(xué)者羅伯布寫的"一報還一報"(tit for tat)。這個程序的特點(diǎn)是,第一次對局采用合作的策略,以后每一步都跟隨對方上一步的策略,你上一次合作,我這一次就合作,你上一次不合作,我這一次就不合作。艾克斯羅德還發(fā)現(xiàn),得分排在前面的程序有三個特點(diǎn):第一,從不首先背叛,即"善良的";第二,對于對方的背叛行為一定要報復(fù),不能總是合作,即" 可激怒的";第三,不能人家一次背叛,你就沒完沒了的報復(fù),以后人家只要改為合作,你也要合作,即"寬容性"。
  為了進(jìn)一步驗(yàn)證上述結(jié)論,艾氏決定邀請更多的人再做一次游戲,并把第一次的結(jié)果公開發(fā)表。第二次征集到了62個程序,加上他自己的隨機(jī)程序,又進(jìn)行了一次競賽。結(jié)果,第一名的仍是"一報還一報"。艾氏總結(jié)這次游戲的結(jié)論是:第一,"一報還一報"仍是最優(yōu)策略。第二,前面提到的三個特點(diǎn)仍然有效,因?yàn)?3人中的前15名里,只有第8名的哈靈頓程序是"不善良的",后15名中,只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外,好的策略還必須具有的一個特點(diǎn)是"清晰性",能讓對方在三、五步對局內(nèi)辨識出來,太復(fù)雜的對策不見得好。"一報還一報"就有很好的清晰性,讓對方很快發(fā)現(xiàn)規(guī)律,從而不得不采取合作的態(tài)度。
 
  
rn本文來自: 博弈論中國(http://www.) 詳細(xì)出處參考:http:///gametheory/basic/2008-12-06/243.html

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多