納什均衡名稱來源及簡介:
納什均衡,Nash equilibrium ,又稱為非合作博弈均衡,是博弈論的一個(gè)重要術(shù)語,以約翰·納什命名。約翰·納什1948年作為年輕數(shù)學(xué)博士生進(jìn)入普林斯頓大學(xué)。其研究成果見于題為《非合作博弈》(1950)的博士論文。該博士論文導(dǎo)致了《n人博弈中的均衡點(diǎn)》(1950)和題為《非合作博弈》(1951)兩篇論文的發(fā)表。納什在上述論文中,介紹了合作博弈與非合作博弈的區(qū)別。他對非合作博弈的最重要貢獻(xiàn)是闡明了包含任意人數(shù)局中人和任意偏好的一種通用解概念,也就是不限于兩人零和博弈。該解概念后來被稱為納什均衡。
納什均衡定義:
假設(shè)有n個(gè)局中人參與博弈,給定其他人策略的條件下,每個(gè)局中人選擇自己的最優(yōu)策略(個(gè)人最優(yōu)策略可能依賴于也可能不依賴于他人的戰(zhàn)略),從而使自己效用最大化。所有局中人策略構(gòu)成一個(gè)策略組合(Strategy Profile)。納什均衡指的是這樣一種戰(zhàn)略組合,這種策略組合由所有參與人最優(yōu)策略組成。即在給定別人策略的情況下,沒有人有足夠理由打破這種均衡。
納什均衡經(jīng)典案例:囚徒困境
(1950年,數(shù)學(xué)家塔克任斯坦福大學(xué)客座教授,在給一些心理學(xué)家作講演時(shí),講到兩個(gè)囚犯的故事。)
假設(shè)有兩個(gè)小偷A(chǔ)和B聯(lián)合犯事、私入民宅被警察抓住。警方將兩人分別置于不同的兩個(gè)房間內(nèi)進(jìn)行審訊,對每一個(gè)犯罪嫌疑人,警方給出的政策是:如果一個(gè)犯罪嫌疑人坦白了罪行,交出了贓物,于是證據(jù)確鑿,兩人都被判有罪。如果另一個(gè)犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個(gè)犯罪嫌人沒有坦白而是抵賴,則以妨礙公務(wù)罪(因已有證據(jù)表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據(jù)不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。表2.2給出了這個(gè)博弈的支付矩陣。
表2.2 囚徒困境博弈
——————————————————————————
┃ B ┃ B ┃
————————┃————————┃————————┃
┃ 坦白 ┃ 抵賴 ┃
————————┃————————┃————————┃
A 坦白 ┃ –8, –8 ┃ 0, –10 ┃
————————┃————————┃————————┃
A 抵賴 ┃ –10, 0 ┃ –1, –1 ┃
————————┃————————┃————————┃
關(guān)于案例,顯然最好的策略是雙方都抵賴,結(jié)果是大家都只被判1年。但是由于兩人處于隔離的情況,首先應(yīng)該是從心理學(xué)的角度來看,當(dāng)事雙方都會懷疑對方會出賣自己以求自保、其次才是亞當(dāng)·斯密的理論,假設(shè)每個(gè)人都是“理性的經(jīng)濟(jì)人”,都會從利己的目的出發(fā)進(jìn)行選擇。這兩個(gè)人都會有這樣一個(gè)盤算過程:假如他坦白,我抵賴,得坐10年監(jiān)獄,坦白最多才8年;他要是抵賴,我就可以被釋放,而他會坐10年牢。綜合以上幾種情況考慮,不管他坦白與否,對我而言都是坦白了劃算。兩個(gè)人都會動這樣的腦筋,最終,兩個(gè)人都選擇了坦白,結(jié)果都被判8年刑期。
基于經(jīng)濟(jì)學(xué)中Rational agent的前提假設(shè),兩個(gè)囚犯符合自己利益的選擇是坦白招供,原本對雙方都有利的策略不招供從而均被釋放就不會出現(xiàn)。這樣兩人都選擇坦白的策略以及因此被判8年的結(jié)局,納什均衡”首先對亞當(dāng)·斯密的“看不見的手”的原理提出挑戰(zhàn):按照斯密的理論,在市場經(jīng)濟(jì)中,每一個(gè)人都從利己的目的出發(fā),而最終全社會達(dá)到利他的效果。但是我們可以從“納什均衡”中引出“看不見的手”原理的一個(gè)悖論:從利己目的出發(fā),結(jié)果損人不利己,既不利己也不利他。
記載納什生平的書有:《普林斯頓的幽靈》(又譯為《美麗心靈》)西爾維婭.娜薩
博弈論(Game Theory),有時(shí)也稱為對策論,或者賽局理論,應(yīng)用數(shù)學(xué)的一個(gè)分支, 目前在生物學(xué),經(jīng)濟(jì)學(xué),國際關(guān)系,計(jì)算機(jī)科學(xué), 政治學(xué),軍事戰(zhàn)略和其他很多學(xué)科都有廣泛的應(yīng)用。主要研究公式化了的激勵(lì)結(jié)構(gòu)(游戲或者博弈(Game))間的相互作用。是研究具有斗爭或競爭性質(zhì)現(xiàn)象的數(shù)學(xué)理論和方法。也是運(yùn)籌學(xué)的一個(gè)重要學(xué)科。
博弈論考慮游戲中的個(gè)體的預(yù)測行為和實(shí)際行為,并研究它們的優(yōu)化策略。 表面上不同的相互作用可能表現(xiàn)出相似的激勵(lì)結(jié)構(gòu)(incentive structure),所以他們是同一個(gè)游戲的特例。其中一個(gè)有名有趣的應(yīng)用例子是囚徒困境悖論(Prisoner's dilemma)。
具有競爭或?qū)剐再|(zhì)的行為成為博弈行為。在這類行為中,參加斗爭或競爭的各方各自具有不同的目標(biāo)或利益。為了達(dá)到各自的目標(biāo)和利益,各方必須考慮對手的各種可能的行動方案,并力圖選取對自己最為有利或最為合理的方案。比如日常生活中的下棋,打牌等。博弈論就是研究博弈行為中斗爭各方是否存在著最合理的行為方案,以及如何找到這個(gè)合理的行為方案的數(shù)學(xué)理論和方法。
生物學(xué)家使用博弈理論來理解和預(yù)測進(jìn)化論的某些結(jié)果。例如,John Maynard Smith 和George R. Price 在1973年發(fā)表于Nature上的論文中提出的“evolutionarily stable strategy”的這個(gè)概念就是使用了博弈理論。還可以參見進(jìn)化博弈理論(evolutionary game theory)和行為生態(tài)學(xué)(behavioral ecology)。
博弈論也應(yīng)用于數(shù)學(xué)的其他分支,如概率,統(tǒng)計(jì)和線性規(guī)劃等。
博弈論簡史
對于博弈論的研究,開始于策墨洛(Zermelo,1913),波雷爾(Borel,1921)及馮·諾伊曼(von Neumann, 1928),后來由馮·諾伊曼和奧斯卡·摩根斯坦(von Neumann and Morgenstern,1944,1947)首次對其系統(tǒng)化和形式化(參照Myerson, 1991)。隨后約翰·福布斯·納什(John Forbes Nash Jr., 1950, 1951)利用不動點(diǎn)定理證明了均衡點(diǎn)的存在,為博弈論的一般化奠定了堅(jiān)實(shí)的基礎(chǔ)。
當(dāng)代博弈論的“三大家”和“四君子”
"三大家" 包括約翰·福布斯·納什、約翰·C·海薩尼,以及萊因哈德·澤爾騰。這三人同時(shí)因?yàn)樗麄儗Σ┺恼摰耐怀鲐暙I(xiàn)而獲得1994年的瑞典銀行經(jīng)濟(jì)學(xué)獎(jiǎng)(也稱諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。
"四君子" 包括羅伯特·J·奧曼、肯·賓摩爾、戴維·克瑞普斯,以及阿里爾·魯賓斯坦。
博弈論分類
博弈的分類根據(jù)不同的基準(zhǔn)也有不同的分類。一般認(rèn)為,博弈主要可以分為合作博弈和非合作博弈。它們的區(qū)別在于相互發(fā)生作用的當(dāng)事人之間有沒有一個(gè)具有約束力的協(xié)議,如果有,就是合作博弈,如果沒有,就是非合作博弈。
從行為的時(shí)間序列性,博弈論進(jìn)一步分為兩類:靜態(tài)博弈是指在博弈中,參與人同時(shí)選擇或雖非同時(shí)選擇但后行動者并不知道先行動者采取了什么具體行動;動態(tài)博弈是指在博弈中,參與人的行動有先后順序,且后行動者能夠觀察到先行動者所選擇的行動。通俗的理解:"囚徒困境"就是同時(shí)決策的,屬于靜態(tài)博弈;而棋牌類游戲等決策或行動有先后次序的,屬于動態(tài)博弈
按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中,每一位參與人對其他參與人的特征、策略空間及收益函數(shù)有準(zhǔn)確的信息。如果參與人對其他參與人的特征、策略空間及收益函數(shù)信息了解的不夠準(zhǔn)確、或者不是對所有參與人的特征、策略空間及收益函數(shù)都有準(zhǔn)確的信息,在這種情況下進(jìn)行的博弈就是不完全信息博弈。
目前經(jīng)濟(jì)學(xué)家們現(xiàn)在所談的博弈論一般是指非合作博弈,由于合作博弈論比非合作博弈論復(fù)雜,在理論上的成熟度遠(yuǎn)遠(yuǎn)不如非合作博弈論。非合作博弈又分為:完全信息靜態(tài)博弈,完全信息動態(tài)博弈,不完全信息靜態(tài)博弈,不完全信息動態(tài)博弈。與上述四種博弈相對應(yīng)的均衡概念為:納什均衡(Nash equilibrium),子博弈精煉納什均衡(subgame perfect Nash equilibrium),貝葉斯納什均衡(Bayesian Nash equilibrium),精煉貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。
博弈論還又很多分類,比如:以博弈進(jìn)行的次數(shù)或者持續(xù)長短可以分為有限博弈和無限博弈;以表現(xiàn)形式也可以分為一般型(戰(zhàn)略型)或者展開型,等等。
博弈論的意義
博弈論的研究方法和其他許多利用數(shù)學(xué)工具研究社會經(jīng)濟(jì)現(xiàn)象的學(xué)科一樣,都是從復(fù)雜的現(xiàn)象中抽象出基本的元素,對這些元素構(gòu)成的數(shù)學(xué)模型進(jìn)行分析,而后逐步引入對其形勢產(chǎn)影響的其他因素,從而分析其結(jié)果。
基于不同抽象水平,形成三種博弈表述方式,標(biāo)準(zhǔn)型、擴(kuò)展型和特征函數(shù)型利用這三種表述形式,可以研究形形色色的問題。因此,它被稱為“社會科學(xué)的數(shù)學(xué)”從理論上講,博弈論是研究理性的行動者相互作用的形式理論,而實(shí)際上正深入到經(jīng)濟(jì)學(xué)、政治學(xué)、社會學(xué)等等,被各門社會科學(xué)所應(yīng)用。
博弈論與納什平衡
博弈論(game theory)對人的基本假定是:人是理性的(rational,或者說自私的),理性的人是指他在具體策略選擇時(shí)的目的是使自己的利益最大化,博弈論研究的是理性的人之間如何進(jìn)行策略選擇的。
納什(John Nash)編制的博弈論經(jīng)典故事"囚徒的困境",說明了非合作博弈及其均衡解的成立,故稱"納什平衡"。
所有的博弈問題都會遇到三個(gè)要素。在囚徒的故事中,兩個(gè)囚徒是當(dāng)事人(players)又稱參與者;當(dāng)事人所做的選擇策略 (strategies)是承認(rèn)了殺人事實(shí),最后兩個(gè)人均贏得(payoffs)了中間的宣判結(jié)果。如果兩個(gè)囚徒之中有一個(gè)承認(rèn)殺人,另外一個(gè)抵賴,不承認(rèn)殺人,那么承認(rèn)者將會得到減刑處理,而抵賴者將會得到最嚴(yán)厲的死刑判決,在納什故事中兩個(gè)人都承認(rèn)了犯罪事實(shí),所以兩個(gè)囚徒得到的是中間的結(jié)果。
類似的: 我們也能從“自私的基因”等理論中看到“納什平衡”的體現(xiàn)。
在互聯(lián)網(wǎng)這個(gè)原始叢林中:最優(yōu)策略是如何產(chǎn)生的呢?
博弈中最優(yōu)策略的產(chǎn)生
艾克斯羅德(Robert Axelrod)在開始研究合作之前,設(shè)定了兩個(gè)前提:一、每個(gè)人都是自私的;二、沒有權(quán)威干預(yù)個(gè)人決策。也就是說,個(gè)人可以完全按照自己利益最大化的企圖進(jìn)行決策。在此前提下,合作要研究的問題是:第一、人為什么要合作;第二、人什么時(shí)候是合作的,什么時(shí)候又是不合作的;第三、如何使別人與你合作。
社會實(shí)踐中有很多合作的問題。比如國家之間的關(guān)稅報(bào)復(fù),對他國產(chǎn)品提高關(guān)稅有利于保護(hù)本國的經(jīng)濟(jì),但是國家之間互提關(guān)稅,產(chǎn)品價(jià)格就提高了,喪失了競爭力,損害了國際貿(mào)易的互補(bǔ)優(yōu)勢。在對策中,由于雙方各自追求自己利益的最大化,導(dǎo)致了群體利益的損害。對策論以著名的囚犯困境來描述這個(gè)問題。
A和B各表示一個(gè)人,他們的選擇是完全無差異的。選擇C代表合作,選擇D代表不合作。如果AB都選擇C合作,則兩人各得3分;如果一方選C,一方選D,則選C的得零分,選D的得5分;如果AB都選D,雙方各得1分。
顯然,對群體來說最好的結(jié)果是雙方都選C,各得3分,共得6分。如果一方選C,一方選D,總體得5分。如果兩人都選D,總體得2分。
對策學(xué)界用這個(gè)矩陣來描述個(gè)體理性與群體理性的沖突:每個(gè)人在追求個(gè)體利益最大化時(shí),就使群體利益受損,這就是囚徒困境。在矩陣中,對于A來說,當(dāng)對方選 C,他選D得5分,選C只得3分;當(dāng)對方選D,他選D得1分,選C得零分。因此,無論對方選C或D,對A來說,選D都得分最多。這是A單方面的優(yōu)超策略。而當(dāng)兩個(gè)優(yōu)超策略相遇,即A,B都選D時(shí),結(jié)果是各得1分。這個(gè)結(jié)構(gòu)在矩陣中并非最優(yōu)。困境就在于,每個(gè)人采取各自的優(yōu)超策略時(shí),得出的解是穩(wěn)定的,但不是帕累托最優(yōu)的,這個(gè)結(jié)果體現(xiàn)了個(gè)體理性與群體理性的矛盾。在數(shù)學(xué)上,這個(gè)一次性決策的矩陣沒有最優(yōu)解。
如果博弈進(jìn)行多次,只要對策者知道博弈次數(shù),他們在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就沒有合作的必要,因此,在次數(shù)已知的多次博弈中,對策者沒有一次會合作。
如果博弈在多人間進(jìn)行,而且次數(shù)未知,對策者就會意識到,當(dāng)持續(xù)地采取合作并達(dá)成默契時(shí),對策者就能持續(xù)地各得3分,但如果持續(xù)地不合作的話,每個(gè)人就永遠(yuǎn)得1分。這樣,合作的動機(jī)就顯現(xiàn)出來。多次對局下,未來的收益應(yīng)比現(xiàn)在的收益多一個(gè)折現(xiàn)率W,W越大,表示未來的收益越重要。在多人對策持續(xù)進(jìn)行下去,且W比較大,即未來充分重要時(shí),最優(yōu)的策略是與別人采取的策略有關(guān)的。假設(shè)某人的策略是,第一次合作,以后只要對方不合作一次,他就永不合作。對這種對策者,當(dāng)然合作下去是上策。假如有的人不管對方采取什么策略,他總是合作,那么總是對他采取不合作的策略得分最多。對于總是不合作的人,也只能采取不合作的策略。
艾克斯羅德做了一個(gè)實(shí)驗(yàn),邀請多人來參加游戲,得分規(guī)則與前面的矩陣相同,什么時(shí)候結(jié)束游戲是未知的。他要求每個(gè)參賽者把追求得分最多的策略寫成計(jì)算機(jī)程序,然后用單循環(huán)賽的方式將參賽程序兩兩博弈,以找出什么樣的策略得分最高。
第一輪游戲有14個(gè)程序參加,再加上艾克斯羅德自己的一個(gè)隨機(jī)程序(即以50%的概率選取合作或不合作),運(yùn)轉(zhuǎn)了300次。結(jié)果得分最高的程序是加拿大學(xué)者羅伯布寫的"一報(bào)還一報(bào)"(tit for tat)。這個(gè)程序的特點(diǎn)是,第一次對局采用合作的策略,以后每一步都跟隨對方上一步的策略,你上一次合作,我這一次就合作,你上一次不合作,我這一次就不合作。艾克斯羅德還發(fā)現(xiàn),得分排在前面的程序有三個(gè)特點(diǎn):第一,從不首先背叛,即"善良的";第二,對于對方的背叛行為一定要報(bào)復(fù),不能總是合作,即" 可激怒的";第三,不能人家一次背叛,你就沒完沒了的報(bào)復(fù),以后人家只要改為合作,你也要合作,即"寬容性"。
為了進(jìn)一步驗(yàn)證上述結(jié)論,艾氏決定邀請更多的人再做一次游戲,并把第一次的結(jié)果公開發(fā)表。第二次征集到了62個(gè)程序,加上他自己的隨機(jī)程序,又進(jìn)行了一次競賽。結(jié)果,第一名的仍是"一報(bào)還一報(bào)"。艾氏總結(jié)這次游戲的結(jié)論是:第一,"一報(bào)還一報(bào)"仍是最優(yōu)策略。第二,前面提到的三個(gè)特點(diǎn)仍然有效,因?yàn)?3人中的前15名里,只有第8名的哈靈頓程序是"不善良的",后15名中,只有1個(gè)總是合作的是"善良的"??杉づ院蛯捜菪砸驳玫搅俗C明。此外,好的策略還必須具有的一個(gè)特點(diǎn)是"清晰性",能讓對方在三、五步對局內(nèi)辨識出來,太復(fù)雜的對策不見得好。"一報(bào)還一報(bào)"就有很好的清晰性,讓對方很快發(fā)現(xiàn)規(guī)律,從而不得不采取合作的態(tài)度。
合作的進(jìn)行過程及規(guī)律
"一報(bào)還一報(bào)"的策略在靜態(tài)的群體中得到了很好的分?jǐn)?shù),那么,在一個(gè)動態(tài)的進(jìn)化的群體中,這種合作者能否產(chǎn)生、發(fā)展、生存下去呢?群體是會向合作的方向進(jìn)化,還是向不合作的方向進(jìn)化?如果大家開始都不合作,能否在進(jìn)化過程中產(chǎn)生合作?為了回答這些疑問,艾氏用生態(tài)學(xué)的原理來分析合作的進(jìn)化過程。
假設(shè)對策者所組成的策略群體是一代一代進(jìn)化下去的,進(jìn)化的規(guī)則包括:一,試錯(cuò)。人們在對待周圍環(huán)境時(shí),起初不知道該怎么做,于是就試試這個(gè),試試那個(gè),哪個(gè)結(jié)果好就照哪個(gè)去做。第二,遺傳。一個(gè)人如果合作性好,他的后代的合作基因就多。第三,學(xué)習(xí)。比賽過程就是對策者相互學(xué)習(xí)的過程,"一報(bào)還一報(bào)"的策略好,有的人就愿意學(xué)。按這樣的思路,艾氏設(shè)計(jì)了一個(gè)實(shí)驗(yàn),假設(shè)63個(gè)對策者中,誰在第一輪中的得分高,他在第二輪的群體中所占比例就越高,而且是他的得分的正函數(shù)。這樣,群體的結(jié)構(gòu)就會在進(jìn)化過程中改變,由此可以看出群體是向什么方向進(jìn)化的。
實(shí)驗(yàn)結(jié)果很有趣。"一報(bào)還一報(bào)"原來在群體中占1/63,經(jīng)過1000代的進(jìn)化,結(jié)構(gòu)穩(wěn)定下來時(shí),它占了24%。另外,有一些程序在進(jìn)化過程中消失了。其中有一個(gè)值得研究的程序,即原來前15名中唯一的那個(gè)"不善良的"哈靈頓程序,它的對策方案是,首先合作,當(dāng)發(fā)現(xiàn)對方一直在合作,它就突然來個(gè)不合作,如果對方立刻報(bào)復(fù)它,它就恢復(fù)合作,如果對方仍然合作,它就繼續(xù)背叛。這個(gè)程序一開始發(fā)展很快,但等到除了"一報(bào)還一報(bào)"之外的其它程序開始消失時(shí),它就開始下降了。因此,以合作系數(shù)來測量,群體是越來越合作的。
進(jìn)化實(shí)驗(yàn)揭示了一個(gè)哲理:一個(gè)策略的成功應(yīng)該以對方的成功為基礎(chǔ)。"一報(bào)還一報(bào)"在兩個(gè)人對策時(shí),得分不可能超過對方,最多打個(gè)平手,但它的總分最高。它賴以生存的基礎(chǔ)是很牢固的,因?yàn)樗寣Ψ降玫搅烁叻?。哈靈頓程序就不是這樣,它得到高分時(shí),對方必然得到低分。它的成功是建立在別人失敗的基礎(chǔ)上的,而失敗者總是要被淘汰的,當(dāng)失敗者被淘汰之后,這個(gè)好占別人便宜的成功者也要被淘汰。
那么,在一個(gè)極端自私者所組成的不合作者的群體中,"一報(bào)還一報(bào)"能否生存呢?艾氏發(fā)現(xiàn),在得分矩陣和未來的折現(xiàn)系數(shù)一定的情況下,可以算出,只要群體的 5%或更多成員是"一報(bào)還一報(bào)"的,這些合作者就能生存,而且,只要他們的得分超過群體的總平均分,這個(gè)合作的群體就會越來越大,最后蔓延到整個(gè)群體。反之,無論不合作者在一個(gè)合作者占多數(shù)的群體中有多大比例,不合作者都是不可能自下而上的。這就說明,社會向合作進(jìn)化的棘輪是不可逆轉(zhuǎn)的,群體的合作性越來越大。艾克斯羅德正是以這樣一個(gè)鼓舞人心的結(jié)論,突破了"囚犯困境"的研究困境。
在研究中發(fā)現(xiàn),合作的必要條件是:第一、關(guān)系要持續(xù),一次性的或有限次的博弈中,對策者是沒有合作動機(jī)的;第二、對對方的行為要做出回報(bào),一個(gè)永遠(yuǎn)合作的對策者是不會有人跟他合作的。
那么,如何提高合作性呢?首先,要建立持久的關(guān)系,即使是愛情也需要建立婚姻契約以維持雙方的合作。(火車站的小販為什么要騙人?為什么工作中要形成小組制度?換防的時(shí)候一方總是要小小地進(jìn)攻一下的,在中越前線就是這樣)第二、要增強(qiáng)識別對方行動的能力,如果不清楚對方是合作還是不合作,就沒法回報(bào)他了。第三、要維持聲譽(yù),說要報(bào)復(fù)就一定要做到,人家才知道你是不好欺負(fù)的,才不敢不與你合作。第四、能夠分步完成的對局不要一次完成,以維持長久關(guān)系,比如,貿(mào)易、談判都要分步進(jìn)行,以促使對方采取合作態(tài)度。第五、不要嫉妒人家的成功,"一報(bào)還一報(bào)"正是這樣的典范。第六、不要首先背叛,以免擔(dān)上罪魁禍?zhǔn)椎牡赖聣毫?。第七、不僅對背叛要回報(bào),對合作也要作出回報(bào)。第八、不要耍小聰明,占人家便宜。
艾克斯羅德在《合作的進(jìn)化》一書結(jié)尾提出幾個(gè)結(jié)論。第一、友誼不是合作的必要條件,即使是敵人,只要滿足了關(guān)系持續(xù),互相回報(bào)的條件,也有可能合作。比如,第一次世界大戰(zhàn)期間,德英兩軍在戰(zhàn)壕戰(zhàn)中遇上了三個(gè)月的雨季,雙方在這三個(gè)月中達(dá)成了默契,互相不攻擊對方的糧車給養(yǎng),到大反攻時(shí)再你死我活地打。這個(gè)例子說明,友誼不是合作的前提。第二、預(yù)見性也不是合作的前提,艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點(diǎn)。但是,當(dāng)有預(yù)見性的人類了解了合作的規(guī)律之后,合作進(jìn)化的過程就會加快。這時(shí),預(yù)見性是有用的,學(xué)習(xí)也是有用的。
當(dāng)游戲中考慮到隨機(jī)干擾,即對策者由于誤會而開始互相背叛的情形時(shí),吳堅(jiān)忠博士經(jīng)研究發(fā)現(xiàn),以修正的"一報(bào)還一報(bào)",即以一定的概率不報(bào)復(fù)對方的背叛,和 "悔過的一報(bào)還一報(bào)",即以一定的概率主動停止背叛。群體所有成員處理隨機(jī)環(huán)境的能力越強(qiáng),"悔過的一報(bào)還一報(bào)"效果越好,"寬大的一報(bào)還一報(bào)"效果越差。
艾克斯羅德的貢獻(xiàn)與局限性
艾克斯羅德通過數(shù)學(xué)化和計(jì)算機(jī)化的方法研究如何突破囚徒困境,達(dá)成合作,將這項(xiàng)研究帶到了一個(gè)全新境界,他在數(shù)學(xué)上的證明無疑是十分雄辯和令人信服的,而且,他在計(jì)算機(jī)模擬中得出的一些結(jié)論是非常驚人的發(fā)現(xiàn),比如,總分最高的人在每次博弈中都沒有拿到最高分。(劉邦和項(xiàng)羽的戰(zhàn)爭)
艾氏所發(fā)現(xiàn)的"一報(bào)還一報(bào)"策略,從社會學(xué)的角度可以看作是一種"互惠式利他",這種行為的動機(jī)是個(gè)人私利,但它的結(jié)果是雙方獲利,并通過互惠式利他有可能復(fù)蓋了范圍最廣的社會生活,人們通過送禮及回報(bào),形成了一種社會生活的秩序,這種秩序即使在多年隔絕,語言不通的人群之間也是最易理解的東西。比如,哥倫布登上美洲大陸時(shí),與印地安人最初的交往就開始于互贈禮物。有些看似純粹的利他行為,比如無償損贈,也通過某些間接方式,比如社會聲譽(yù)的獲得,得到了回報(bào)。研究這種行為,將對我們理解社會生活有很重要的意義。
囚徒困境擴(kuò)展為多人博弈時(shí),就體現(xiàn)了一個(gè)更廣泛的問題──"社會悖論",或"資源悖論"。人類共有的資源是有限的,當(dāng)每個(gè)人都試圖從有限的資源中多拿一點(diǎn)兒時(shí),就產(chǎn)生了局部利益與整體利益的沖突。人口問題、資源危機(jī)、交通阻塞,都可以在社會悖論中得以解釋,在這些問題中,關(guān)鍵是通過研究,制定游戲規(guī)則來控制每個(gè)人的行為。
艾克斯羅德的一些結(jié)論在中國古典文化道德傳統(tǒng)中可以很容易地找到對應(yīng),"投桃報(bào)李"、"人不犯我,我不犯人"都體現(xiàn)了"tit for tat"的思想。但這些東西并不是最優(yōu)的,因?yàn)?一報(bào)還一報(bào)"在充滿了隨機(jī)性的現(xiàn)實(shí)社會生活里是有缺陷的。對此,孔子在幾千年前就說出了"以德報(bào)德,以直報(bào)怨"這樣精彩的修正策略,所謂"直",就是公正,以公正來回報(bào)對方的背叛,是一種修正了的"一報(bào)還一報(bào)",修正的是報(bào)復(fù)的程度,本來會讓你損失5分,現(xiàn)在只讓你損失3分,從而以一種公正審判來結(jié)束代代相續(xù)的報(bào)復(fù),形成文明。
但是,艾氏對博弈者的一些假設(shè)和結(jié)論使其研究不可避免地與現(xiàn)實(shí)脫節(jié)。首先,《合作的進(jìn)化》一書暗含著一個(gè)重要的假定,即,個(gè)體之間的博弈是完全無差異的?,F(xiàn)實(shí)的博弈中,對策者之間絕對的平等是不可能達(dá)到的。一方面,對策者在實(shí)際的實(shí)力上有差異,雙方互相背叛時(shí),可能不是各得1分,而是強(qiáng)者得5分,弱者得0分,這樣,弱者的報(bào)復(fù)就毫無意義。另一方面,即使對局雙方確實(shí)旗鼓相當(dāng),但某一方可能懷有賭徒心理,認(rèn)定自己更強(qiáng)大,采取背叛的策略能占便宜。艾氏的得分矩陣忽視了這種情形,而這種賭徒心理恰恰在社會上大量引發(fā)了零和博弈。因此,程序還可以在此基礎(chǔ)上進(jìn)一步改進(jìn)。
其次,艾氏認(rèn)為合作不需預(yù)期和信任。這是他受到質(zhì)疑頗多之處。對策者根據(jù)對方前面的戰(zhàn)術(shù)來制定自己下面的戰(zhàn)術(shù),合作要求個(gè)體能夠識別那些曾經(jīng)相遇過的個(gè)體并且記得與其相互作用的歷史,以便作出反應(yīng),這些都暗含著"預(yù)期"行為。在應(yīng)付復(fù)雜的對策環(huán)境時(shí),信任可能是對局雙方達(dá)成合作的必不可少的環(huán)節(jié)。但是,預(yù)期與信任如何在計(jì)算機(jī)的程序中體現(xiàn)出來,仍是需要研究的。
最后,重復(fù)博弈在現(xiàn)實(shí)中是很難完全實(shí)現(xiàn)的。一次性博弈的大量存在,引發(fā)了很多不合作的行為,而且,對策的一方在遭到對方背叛之后,往往沒有機(jī)會也沒有還手之力去進(jìn)行報(bào)復(fù)。比如,資本積累階段的違約行為,國家之間的核威懾。在這些情況下,社會要使交易能夠進(jìn)行,并且防止不合作行為,必須通過法制手段,以法律的懲罰代替?zhèn)€人之間的"一報(bào)還一報(bào)",規(guī)范社會行為。這是艾克斯羅德的研究對制度學(xué)派的一個(gè)重要啟發(fā)。