日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

《策略思維》

 西域過客01 2017-01-15

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

電話鈴聲響了,你接起來。

但是,“這該死的運營商!”網(wǎng)絡(luò)斷開了,電話連接中斷,你想也沒想就直接重撥過去。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

“對不起,您撥打的電話正在通話中,請稍后再撥!sorry,the number you have dialed is busy……”

你忍不住罵出一聲“shit!”。

第一次你接起電話,這是一個回合制事件;第二次你撥號的時候,這時候“打電話”這件事情,變成了你們兩人的即時制事件。

在回合制事件之中,對方或者你先選擇打電話,然后另一方接起來。但是在即時制的情況下,兩人都面臨兩種選擇——撥過去或者是等待對方撥過來。

這種時候總是會出現(xiàn)那種詭異的“神同步”:當(dāng)你想打過去的時候,對方也想著要打過來;當(dāng)你想著等對方打過來的時候,對方也在等待……

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

在即時制的事件之中,我們不得不在毫不知曉對方?jīng)Q定的情況下采取行動,等到彼此發(fā)現(xiàn)對方做了什么,再想做什么改變已經(jīng)太遲了。

這種即時博弈,最為出名的就是“囚徒困境”,所有的即時博弈模型,近乎都是從這一原型之下推導(dǎo)而出。

一、囚徒困境

我們先簡單介紹一個標(biāo)準(zhǔn)的囚徒困境模型。

警察抓住兩個囚犯,現(xiàn)在要單獨審問兩個囚犯。并且因為某些法則,如果兩個囚犯拒絕認罪,那么警方只能把兩人各關(guān)兩年。

如果一人坦白,另一方死不認罪的話,那么坦白的人將獲得嘉許,當(dāng)場釋放。而嘴硬到底的那一人,則會被判刑五年。

如果兩人都坦白的話,兩人都將判刑三年。

我們將兩個囚犯分別簡化成A跟B,畫出博弈論在分析即時博弈常用的博弈矩陣。如下:

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

其中,每個格子里面左下角是A的結(jié)果,右上角是B的結(jié)果。

二、優(yōu)勢策略

通過上面那張表單,我們可以看到,對A而言,認罪有兩個結(jié)果:-3和0。而同時,不認罪的兩個結(jié)果分別對應(yīng)的是-5跟-1。

其中-3優(yōu)于-5,0優(yōu)于-1。

在這種情況下,我們將結(jié)果總是比較好的那一列所對應(yīng)的策略,稱之為優(yōu)勢策略。

我們簡單理解一下這個優(yōu)勢策略的含義:不管對方怎么選擇,優(yōu)勢策略的結(jié)果都要好過于其他策略。在上例之中,對A而言,B認罪的話,自己認罪得到-3,自己不認罪得到的是-5,認罪好過于抵賴;B如果不認罪,自己認罪得到的是0,不認罪得到的是-1,還是認罪得到的結(jié)果更好。

而另外的處于明顯劣勢地位的策略,稱之為劣勢策略。

我們劃出一根線,消去那些所謂的劣勢策略,得到這么一張圖:

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

此時我們看到即時博弈里面有三個框之中都出現(xiàn)了刪除的實線,最后只留下唯一一個框:兩人同時認罪的框。

也就是說,這兩個囚徒在追求自己最佳策略的時候,往往會得到兩人雙雙入獄判刑的結(jié)局,這就是博弈論里面最為基礎(chǔ)的囚徒困境。

三、納什均衡

回到最開始我們提出的打電話的例子,我們假設(shè)電話打通雙方收益都是1,打電話打不通兩方的收益都是0。

畫出博弈矩陣圖:

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

有意思,你仔細觀察,發(fā)現(xiàn)無論是對A還是對B,都沒有一個優(yōu)勢策略:(0,1)的組合,跟(1,0)的組合比起來,顯然是毫無優(yōu)勢。

這種情況下,我們沒有辦法消去所謂的“劣勢策略”,整個矩陣還是四個情況擺在我們的眼前。

但是從兩個人的整體上來看,兩個(1,1)相對起(0,0)就是“雙方的優(yōu)勢策略組合”,這兩個結(jié)果下誰改變都對自己沒好處。比如說A選擇撥打,B選擇等待,A此時改變自己的選擇,從1到0,沒好處,B從等待變成撥打,也會導(dǎo)致從1到0,也沒好處。

這兩種雙方的優(yōu)勢策略組合可以稱之為是納什均衡:(撥打,等待)和(等待,撥打),就是這一博弈里面的納什均衡。

好了,基本的概念性玩意兒到此為止。。(不能說看過一期概覽連博弈論里面的一些基礎(chǔ)定義都不清楚啊,很不想寫這種乏味的概念陳述)

四、現(xiàn)實限制下的囚徒困境:懲罰

在前文之中的囚徒困境里面,那只是一個極度簡化的模型,現(xiàn)實里面的情況比起模型要復(fù)雜許多。

起碼我們看過那么多的香港電影、TVB劇,基本上沒見過這么老實合作的“犯罪嫌疑人”,他們往往拒不認罪,為什么?

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

因為“懲罰”的存在。

前面我們提出優(yōu)勢策略的時候,0(無罪釋放)相對于-1(關(guān)一年)是優(yōu)勢策略,但是這只是理想情況下,考慮到現(xiàn)實——萬一放出來會被打,那無罪釋放還是一個優(yōu)勢策略?

A此時的思考方式就成了,放出去一定會被認為是招了,那么自己的其他同伙一定會懲罰自己,那么此時,招供就不是一個優(yōu)勢策略。

牢獄的懲罰和出去之后同伴的打擊報復(fù),都是懲罰。如果同伴之間的懲罰來的更為嚴(yán)重的時候,不招供才是這種情況下的優(yōu)勢策略。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

這也就出現(xiàn)了我們在電影里面經(jīng)常碰上的情況,罪犯們往往寧愿蹲監(jiān)獄都不大愿意招供,犯罪團伙的懲罰機制,有力的制止了其成員在被警察抓住之后選擇“招供”的傾向性。

五、無限重復(fù)的囚徒困境

如果無限重復(fù),用囚徒的例子已經(jīng)不合適了。(牢底坐穿嗎?)

還記得《自私的基因》概覽么?放蕩和羞怯的雌性個體,忠貞與薄情的雄性個體。

不過這里不用那個例子,為了簡化,我們用一個銀行家的例子。為了簡化篇幅,直接上圖:

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

如同上面的囚徒困境,合作是會被每個人刪除掉的劣勢策略。

但是如果這個游戲不是一輪位置,而是無限重復(fù)的時候,會是怎么樣的局面?這個“重復(fù)博弈”更為復(fù)雜,但這個復(fù)雜性里孕育著希望。

這個時候,A跟B并不是敵人,雖然他們還是追求每個人的最大收益,但是對方不可能永遠是傻瓜——選擇合作,而自己選擇背叛。

誰都清楚,無限的背叛下去,雙方都討不到好。

那么這就引入了一個新的詞匯——信任。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

我們會從彼此過去的行為中,判斷對方是否值得信任,確定自己在這一輪里面打出什么樣的策略,同時我們在事實上也監(jiān)管著對方的行為。

我們可以信任、背叛這樣循環(huán),可以每十次信任打出一次背叛,可以……

哪種綜合策略可以獲得最好的收益?

六、針鋒相對策略

阿克塞爾羅德(一個政治科學(xué)家)為此舉辦了一個實驗:每個人提交自己的策略,把這些策略輸入計算機,然后計算機讓它們自動演化,在若干次循環(huán)之后計算每個策略的得分。

最后得分最高的是這么一個策略:針鋒相對策略,又叫以牙還牙策略。(來自于心理學(xué)家和博弈學(xué)家阿納托爾)

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

這個策略在第一回合會采取合作行動,之后每一步都會重復(fù)對手上一局的策略。

這一場比賽可以讓我們明白一個事情:在重復(fù)的囚徒困境里面,善意和寬容是得到一個好結(jié)果的必須要素。

不過在這里,事后的研究卻也認為,針鋒相對策略并非是一個非常完美的策略,之所以在計算機的模擬之下能夠獲得最后的勝利,跟計算機的“從不犯錯”有很大的關(guān)系。

這個策略有個致命的疏忽:誤會。

設(shè)想一下,在現(xiàn)實里面使用針鋒相對策略的時候,誤會對方行為一次?(那么兩個針鋒相對者會無窮無盡的重復(fù)選擇背叛下去)

針鋒相對策略缺少的是一個宣布“到此為止”的方法。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

具體在現(xiàn)實之中,作者也提出了一個比較復(fù)雜的策略,這個策略從合作開始,總共四條:

1、第一印象——第一輪就背叛的對方絕對不可接受,直接進入針鋒相對策略;

2、短期——任何三輪當(dāng)中出現(xiàn)兩次背叛不可接受,轉(zhuǎn)向針鋒相對策略;

3、中期——過去二十輪之中出現(xiàn)兩次背叛不可接受,轉(zhuǎn)向針鋒相對策略;

4、長期——過去一百輪當(dāng)中出現(xiàn)五次背叛也是不可接受的,轉(zhuǎn)向以牙還牙策略。

末、小結(jié)

總體來說今天這一篇文章還是比較多的摻雜了理論和概念,不過非常抱歉,這也是不得已而為之。

無論是囚徒困境、納什均衡,還是無限重復(fù)的囚徒困境,這些是我們用知識去解釋現(xiàn)實里面不得不涉及到的一些博弈論基礎(chǔ)。

本周,將給大家?guī)砻骼硐盗械谒钠凇F(xiàn)實世界里面的博弈縮影。

《策略思維》——即時博弈里面的囚徒困境與無限重復(fù)下的優(yōu)勢策略

不管是在《自私的基因》里面出現(xiàn)的進化抉擇傾向,還是當(dāng)下熱門的“消費升級”,甚至還有“房價問題”,這些都可以用前面提到的那幾個博弈論的基礎(chǔ)概念進行解釋和預(yù)測。

讀書不是為了讀死書,而是為了用來構(gòu)建我們的知識體系和預(yù)測機制。

明天,將給大家?guī)磉@一期概覽系列的最后一篇——博弈之下的自由市場失靈。

在《國富論》之后,人們對自由市場經(jīng)濟里面那個“看不見的手”充滿了盲目的信心,人們認為每個理性人在追求個人經(jīng)濟最大化的時候,同時也會讓整個社會變的更好。

盡管一次次經(jīng)濟危機的出現(xiàn)讓人們知道,這只看不見的手并非上帝他老人家的,但是我們依舊對其充滿信心。

但是博弈之下人們的取舍,最終卻總是會帶來一些“并不是對所有人更好”的結(jié)局。

想要知道具體是怎么一些情況,還有為什么?那就期待明天的推送吧!


你的閱讀時間就是最好的贊美。

倘若你意猶未盡,還請搜索微信公眾號名字:“你的文具盒”——

關(guān)注我們,概覽群書,長見識;修身明理,知是非。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多