《策略思維》

西域過客01 2017-01-15

展開全文

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

電話鈴聲響了，你接起來。

但是，“這該死的運營商！”網(wǎng)絡(luò)斷開了，電話連接中斷，你想也沒想就直接重撥過去。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

“對不起，您撥打的電話正在通話中，請稍后再撥！sorry，the number you have dialed is busy……”

你忍不住罵出一聲“shit！”。

第一次你接起電話，這是一個回合制事件；第二次你撥號的時候，這時候“打電話”這件事情，變成了你們兩人的即時制事件。

在回合制事件之中，對方或者你先選擇打電話，然后另一方接起來。但是在即時制的情況下，兩人都面臨兩種選擇——撥過去或者是等待對方撥過來。

這種時候總是會出現(xiàn)那種詭異的“神同步”：當(dāng)你想打過去的時候，對方也想著要打過來；當(dāng)你想著等對方打過來的時候，對方也在等待……

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

在即時制的事件之中，我們不得不在毫不知曉對方?jīng)Q定的情況下采取行動，等到彼此發(fā)現(xiàn)對方做了什么，再想做什么改變已經(jīng)太遲了。

這種即時博弈，最為出名的就是“囚徒困境”，所有的即時博弈模型，近乎都是從這一原型之下推導(dǎo)而出。

一、囚徒困境

我們先簡單介紹一個標(biāo)準(zhǔn)的囚徒困境模型。

警察抓住兩個囚犯，現(xiàn)在要單獨審問兩個囚犯。并且因為某些法則，如果兩個囚犯拒絕認罪，那么警方只能把兩人各關(guān)兩年。

如果一人坦白，另一方死不認罪的話，那么坦白的人將獲得嘉許，當(dāng)場釋放。而嘴硬到底的那一人，則會被判刑五年。

如果兩人都坦白的話，兩人都將判刑三年。

我們將兩個囚犯分別簡化成A跟B，畫出博弈論在分析即時博弈常用的博弈矩陣。如下：

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

其中，每個格子里面左下角是A的結(jié)果，右上角是B的結(jié)果。

二、優(yōu)勢策略

通過上面那張表單，我們可以看到，對A而言，認罪有兩個結(jié)果：-3和0。而同時，不認罪的兩個結(jié)果分別對應(yīng)的是-5跟-1。

其中-3優(yōu)于-5，0優(yōu)于-1。

在這種情況下，我們將結(jié)果總是比較好的那一列所對應(yīng)的策略，稱之為優(yōu)勢策略。

我們簡單理解一下這個優(yōu)勢策略的含義：不管對方怎么選擇，優(yōu)勢策略的結(jié)果都要好過于其他策略。在上例之中，對A而言，B認罪的話，自己認罪得到-3，自己不認罪得到的是-5，認罪好過于抵賴；B如果不認罪，自己認罪得到的是0，不認罪得到的是-1，還是認罪得到的結(jié)果更好。

而另外的處于明顯劣勢地位的策略，稱之為劣勢策略。

我們劃出一根線，消去那些所謂的劣勢策略，得到這么一張圖：

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

此時我們看到即時博弈里面有三個框之中都出現(xiàn)了刪除的實線，最后只留下唯一一個框：兩人同時認罪的框。

也就是說，這兩個囚徒在追求自己最佳策略的時候，往往會得到兩人雙雙入獄判刑的結(jié)局，這就是博弈論里面最為基礎(chǔ)的囚徒困境。

三、納什均衡

回到最開始我們提出的打電話的例子，我們假設(shè)電話打通雙方收益都是1，打電話打不通兩方的收益都是0。

畫出博弈矩陣圖：

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

有意思，你仔細觀察，發(fā)現(xiàn)無論是對A還是對B，都沒有一個優(yōu)勢策略：（0,1）的組合，跟（1,0）的組合比起來，顯然是毫無優(yōu)勢。

這種情況下，我們沒有辦法消去所謂的“劣勢策略”，整個矩陣還是四個情況擺在我們的眼前。

但是從兩個人的整體上來看，兩個(1,1)相對起(0,0)就是“雙方的優(yōu)勢策略組合”，這兩個結(jié)果下誰改變都對自己沒好處。比如說A選擇撥打，B選擇等待，A此時改變自己的選擇，從1到0，沒好處，B從等待變成撥打，也會導(dǎo)致從1到0，也沒好處。

這兩種雙方的優(yōu)勢策略組合可以稱之為是納什均衡：（撥打，等待）和（等待，撥打），就是這一博弈里面的納什均衡。

好了，基本的概念性玩意兒到此為止。。（不能說看過一期概覽連博弈論里面的一些基礎(chǔ)定義都不清楚啊，很不想寫這種乏味的概念陳述）

四、現(xiàn)實限制下的囚徒困境：懲罰

在前文之中的囚徒困境里面，那只是一個極度簡化的模型，現(xiàn)實里面的情況比起模型要復(fù)雜許多。

起碼我們看過那么多的香港電影、TVB劇，基本上沒見過這么老實合作的“犯罪嫌疑人”，他們往往拒不認罪，為什么？

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

因為“懲罰”的存在。

前面我們提出優(yōu)勢策略的時候，0（無罪釋放）相對于-1（關(guān)一年）是優(yōu)勢策略，但是這只是理想情況下，考慮到現(xiàn)實——萬一放出來會被打，那無罪釋放還是一個優(yōu)勢策略？

A此時的思考方式就成了，放出去一定會被認為是招了，那么自己的其他同伙一定會懲罰自己，那么此時，招供就不是一個優(yōu)勢策略。

牢獄的懲罰和出去之后同伴的打擊報復(fù)，都是懲罰。如果同伴之間的懲罰來的更為嚴(yán)重的時候，不招供才是這種情況下的優(yōu)勢策略。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

這也就出現(xiàn)了我們在電影里面經(jīng)常碰上的情況，罪犯們往往寧愿蹲監(jiān)獄都不大愿意招供，犯罪團伙的懲罰機制，有力的制止了其成員在被警察抓住之后選擇“招供”的傾向性。

五、無限重復(fù)的囚徒困境

如果無限重復(fù)，用囚徒的例子已經(jīng)不合適了。（牢底坐穿嗎？）

還記得《自私的基因》概覽么？放蕩和羞怯的雌性個體，忠貞與薄情的雄性個體。

不過這里不用那個例子，為了簡化，我們用一個銀行家的例子。為了簡化篇幅，直接上圖：

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

如同上面的囚徒困境，合作是會被每個人刪除掉的劣勢策略。

但是如果這個游戲不是一輪位置，而是無限重復(fù)的時候，會是怎么樣的局面？這個“重復(fù)博弈”更為復(fù)雜，但這個復(fù)雜性里孕育著希望。

這個時候，A跟B并不是敵人，雖然他們還是追求每個人的最大收益，但是對方不可能永遠是傻瓜——選擇合作，而自己選擇背叛。

誰都清楚，無限的背叛下去，雙方都討不到好。

那么這就引入了一個新的詞匯——信任。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

我們會從彼此過去的行為中，判斷對方是否值得信任，確定自己在這一輪里面打出什么樣的策略，同時我們在事實上也監(jiān)管著對方的行為。

我們可以信任、背叛這樣循環(huán)，可以每十次信任打出一次背叛，可以……

哪種綜合策略可以獲得最好的收益？

六、針鋒相對策略

阿克塞爾羅德（一個政治科學(xué)家）為此舉辦了一個實驗：每個人提交自己的策略，把這些策略輸入計算機，然后計算機讓它們自動演化，在若干次循環(huán)之后計算每個策略的得分。

最后得分最高的是這么一個策略：針鋒相對策略，又叫以牙還牙策略。（來自于心理學(xué)家和博弈學(xué)家阿納托爾）

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

這個策略在第一回合會采取合作行動，之后每一步都會重復(fù)對手上一局的策略。

這一場比賽可以讓我們明白一個事情：在重復(fù)的囚徒困境里面，善意和寬容是得到一個好結(jié)果的必須要素。

不過在這里，事后的研究卻也認為，針鋒相對策略并非是一個非常完美的策略，之所以在計算機的模擬之下能夠獲得最后的勝利，跟計算機的“從不犯錯”有很大的關(guān)系。

這個策略有個致命的疏忽：誤會。

設(shè)想一下，在現(xiàn)實里面使用針鋒相對策略的時候，誤會對方行為一次？（那么兩個針鋒相對者會無窮無盡的重復(fù)選擇背叛下去）

針鋒相對策略缺少的是一個宣布“到此為止”的方法。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

具體在現(xiàn)實之中，作者也提出了一個比較復(fù)雜的策略，這個策略從合作開始，總共四條：

1、第一印象——第一輪就背叛的對方絕對不可接受，直接進入針鋒相對策略；

2、短期——任何三輪當(dāng)中出現(xiàn)兩次背叛不可接受，轉(zhuǎn)向針鋒相對策略；

3、中期——過去二十輪之中出現(xiàn)兩次背叛不可接受，轉(zhuǎn)向針鋒相對策略；

4、長期——過去一百輪當(dāng)中出現(xiàn)五次背叛也是不可接受的，轉(zhuǎn)向以牙還牙策略。

末、小結(jié)

總體來說今天這一篇文章還是比較多的摻雜了理論和概念，不過非常抱歉，這也是不得已而為之。

無論是囚徒困境、納什均衡，還是無限重復(fù)的囚徒困境，這些是我們用知識去解釋現(xiàn)實里面不得不涉及到的一些博弈論基礎(chǔ)。

本周，將給大家?guī)砻骼硐盗械谒钠凇F(xiàn)實世界里面的博弈縮影。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

不管是在《自私的基因》里面出現(xiàn)的進化抉擇傾向，還是當(dāng)下熱門的“消費升級”，甚至還有“房價問題”，這些都可以用前面提到的那幾個博弈論的基礎(chǔ)概念進行解釋和預(yù)測。

讀書不是為了讀死書，而是為了用來構(gòu)建我們的知識體系和預(yù)測機制。

明天，將給大家?guī)磉@一期概覽系列的最后一篇——博弈之下的自由市場失靈。

在《國富論》之后，人們對自由市場經(jīng)濟里面那個“看不見的手”充滿了盲目的信心，人們認為每個理性人在追求個人經(jīng)濟最大化的時候，同時也會讓整個社會變的更好。

盡管一次次經(jīng)濟危機的出現(xiàn)讓人們知道，這只看不見的手并非上帝他老人家的，但是我們依舊對其充滿信心。

但是博弈之下人們的取舍，最終卻總是會帶來一些“并不是對所有人更好”的結(jié)局。

想要知道具體是怎么一些情況，還有為什么？那就期待明天的推送吧！

你的閱讀時間就是最好的贊美。

倘若你意猶未盡，還請搜索微信公眾號名字：“你的文具盒”——

關(guān)注我們，概覽群書，長見識；修身明理，知是非。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：西域過客01 > 《人文知識》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

西域過客01

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 終于比較明白了－－自動對焦模式和區(qū)域模式
[轉(zhuǎn)] 它和山藥一起吃，男人晚上精力旺盛，“腎之果”不是白叫的
馬靖昊：這本書，財務(wù)總監(jiān)朋友們都要讀一讀！
麥達公開課：創(chuàng)始人如何跟投資人打交道？
圖解區(qū)塊鏈
談一談幾年來我對房車使用過程中的總結(jié)和體會

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

《策略思維》