竖笛与双肩书包第二季,wanimal无圣光系列

納什博弈論的原理與應(yīng)用

信息來(lái)源：Chinese websites | 發(fā)布時(shí)間：2021年05月24日

1950年和1951年納什的兩篇關(guān)于非合作博弈論的重要論文，徹底改變了人們對(duì)競(jìng)爭(zhēng)和市場(chǎng)的看法。他證明了非合作博弈及其均衡解，并證明了均衡解的存在性，即著名的納什均衡。從而揭示了博弈均衡與經(jīng)濟(jì)均衡的內(nèi)在聯(lián)系。納什的研究奠定了現(xiàn)代非合作博弈論的基石，后來(lái)的博弈論研究基本上都沿著這條主線展開(kāi)的。然而，納什天才的發(fā)現(xiàn)卻遭到馮·諾依曼的斷然否定，在此之前他還受到愛(ài)因斯坦的冷遇。但是骨子里挑戰(zhàn)權(quán)威、藐視權(quán)威的本性，使納什堅(jiān)持了自己的觀點(diǎn)，終成一代大師。要不是30多年的嚴(yán)重精神病折磨，恐怕他早已站在諾貝爾獎(jiǎng)的領(lǐng)獎(jiǎng)臺(tái)上了，而且也絕不會(huì)與其他人分享這一殊榮。納什是一個(gè)非常天才的數(shù)學(xué)家，他的主要貢獻(xiàn)是1950至1951年在普林斯頓讀博士學(xué)位時(shí)做出的。然而，他的天才發(fā)現(xiàn)———非合作博弈的均衡，即“納什均衡”并不是一帆風(fēng)順的。

1948年納什到普林斯頓大學(xué)讀數(shù)學(xué)系的博士。那一年他還不到20歲。當(dāng)時(shí)普林斯頓可謂人杰地靈，大師如云。愛(ài)因斯坦、馮·諾依曼、列夫謝茨(數(shù)學(xué)系主任)、阿爾伯特·塔克、阿倫佐·切奇、哈羅德·庫(kù)恩、諾爾曼·斯蒂恩羅德、埃爾夫·?？怂埂热荚谶@里。博弈論主要是由馮·諾依曼(1903—1957)創(chuàng)所立的。他是一位出生于匈牙利的天才的數(shù)學(xué)家。他不僅創(chuàng)立了經(jīng)濟(jì)博弈論，而且發(fā)明了計(jì)算機(jī)。早在20世紀(jì)初，塞梅魯(Zermelo)、鮑羅(Borel)和馮·諾伊曼已經(jīng)開(kāi)始研究博弈的準(zhǔn)確的數(shù)學(xué)表達(dá)，直到1939年，馮·諾依曼遇到經(jīng)濟(jì)學(xué)家?jiàn)W斯卡·摩根斯特恩(Oskar Morgenstern)，并與其合作才使博弈論進(jìn)入經(jīng)濟(jì)學(xué)的廣闊領(lǐng)域。

1944年他與奧斯卡·摩根斯特恩合著的巨作《博弈論與經(jīng)濟(jì)行為》出版，標(biāo)志著現(xiàn)代系統(tǒng)博弈理論的的初步形成。盡管對(duì)具有博弈性質(zhì)的問(wèn)題的研究可以追溯到19世紀(jì)甚至更早。例如，1838年古諾(Cournot)簡(jiǎn)單雙寡頭壟斷博弈；1883年伯特蘭和1925年艾奇沃奇思研究了兩個(gè)寡頭的產(chǎn)量與價(jià)格壟斷；2000多年前中國(guó)著名軍事家孫武的后代孫臏利用博弈論方法幫助田忌賽馬取勝等等都屬于早期博弈論的萌芽，其特點(diǎn)是零星的，片斷的研究，帶有很大的偶然性，很不系統(tǒng)。馮·諾依曼和摩根斯特恩的《博弈論與經(jīng)濟(jì)行為》一書(shū)中提出的標(biāo)準(zhǔn)型、擴(kuò)展型和合作型博弈模型解的概念和分析方法，奠定了這門(mén)學(xué)科的理論基礎(chǔ)。合作型博弈在20世紀(jì)50年代達(dá)到了巔峰期。然而，諾依曼的博弈論的局限性也日益暴露出來(lái)，由于它過(guò)于抽象，使應(yīng)用范圍受到很大限制，在很長(zhǎng)時(shí)間里，人們對(duì)博弈論的研究知之甚少，只是少數(shù)數(shù)學(xué)家的專利，所以，影響力很有限。正是在這個(gè)時(shí)候，非合作博弈———“納什均衡”應(yīng)運(yùn)而生了，它標(biāo)志著博弈論的新時(shí)代的開(kāi)始！納什不是一個(gè)按部就班的學(xué)生，他經(jīng)常曠課。據(jù)他的同學(xué)們回憶，他們根本想不起來(lái)曾經(jīng)什么時(shí)候和納什一起完完整整地上過(guò)一門(mén)必修課，但納什爭(zhēng)辯說(shuō)，至少上過(guò)斯蒂恩羅德的代數(shù)拓?fù)鋵W(xué)。斯蒂恩羅德恰恰是這門(mén)學(xué)科的創(chuàng)立者，可是，沒(méi)上幾次課，納什就認(rèn)定這門(mén)課不符合他的口味。于是，又走人了。然而，納什畢竟是一位英才天縱的非凡人物，他廣泛涉獵數(shù)學(xué)王國(guó)的每一個(gè)分支，如拓?fù)鋵W(xué)、代數(shù)幾何學(xué)、邏輯學(xué)、博弈論等等，深深地為之著迷。納什經(jīng)常顯示出他與眾不同的自信和自負(fù)，充滿咄咄逼人的學(xué)術(shù)野心。1950年整個(gè)夏天納什都忙于應(yīng)付緊張的考試，他的博弈論研究工作被迫中斷，他感到這是莫大的浪費(fèi)。殊不知這種暫時(shí)的“放棄”，使原來(lái)模糊、雜亂和無(wú)緒的若干念頭，在潛意識(shí)的持續(xù)思考下，逐步形成一條清晰的脈絡(luò)，突然來(lái)了靈感！這一年的10月，他驟感才思潮涌，夢(mèng)筆生花。其中一個(gè)最耀眼的亮點(diǎn)就是日后被稱之為“納什均衡”的非合作博弈均衡的概念。納什的主要學(xué)術(shù)貢獻(xiàn)體現(xiàn)在1950年和1951年的兩篇論文之中(包括一篇博士論文)。1950年他才把自己的研究成果寫(xiě)成題為“非合作博弈”的長(zhǎng)篇博士論文，1950年11月刊登在美國(guó)全國(guó)科學(xué)院每月公報(bào)上，立即引起轟動(dòng)。說(shuō)起來(lái)這全靠師兄戴維·蓋爾之功，就在遭到馮·諾依曼貶低幾天之后，他遇到蓋爾，告訴他自己已經(jīng)將馮·諾依曼的“最小最大原理”(minimax solution)推到非合作博弈領(lǐng)域，找到了普遍化的方法和均衡點(diǎn)。蓋爾聽(tīng)得很認(rèn)真，他終于意識(shí)到納什的思路比馮·諾伊曼的合作博弈的理論更能反映現(xiàn)實(shí)的情況，而對(duì)其嚴(yán)密優(yōu)美的數(shù)學(xué)證明極為贊嘆。蓋爾建議他馬上整理出來(lái)發(fā)表，以免被別人捷足先登。納什這個(gè)初出茅廬的小子，根本不知道競(jìng)爭(zhēng)的險(xiǎn)惡，從未想過(guò)要這么做。結(jié)果還是蓋爾充當(dāng)了他的“經(jīng)紀(jì)人”，代為起草致科學(xué)院的短信，系主任列夫謝茨則親自將文稿遞交給科學(xué)院。納什寫(xiě)的文章不多，就那么幾篇，但已經(jīng)足夠了，因?yàn)槎际蔷?品中的精品。這一點(diǎn)也是值得我們深思的。國(guó)內(nèi)提一個(gè)教授，要求在“核心的刊物”上發(fā)表多少篇文章。按照這個(gè)標(biāo)準(zhǔn)可能納什還不一定夠資格。

1996年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主莫爾里斯當(dāng)牛津大學(xué)艾奇沃思經(jīng)濟(jì)學(xué)講座教授時(shí)也沒(méi)有發(fā)表過(guò)什么文章，特殊的人才，必須有特殊的選拔辦法。

納什在上大學(xué)時(shí)就開(kāi)始從事純數(shù)學(xué)的博弈論研究，1948年進(jìn)入普林斯頓大學(xué)后更是如魚(yú)得水。20歲出頭已成為聞名世界的數(shù)學(xué)家。特別是在經(jīng)濟(jì)博弈論領(lǐng)域，他做出了劃時(shí)代的貢獻(xiàn)，是繼馮·諾依曼之后最偉大的博弈論大師之一。他提出的著名的納什均衡的概念在非合作博弈理論中起著核心的作用。后續(xù)的研究者對(duì)博弈論的貢獻(xiàn)，都是建立在這一概念之上的。由于納什均衡的提出和不斷完善為博弈論廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、管理學(xué)、社會(huì)學(xué)、政治學(xué)、軍事科學(xué)等領(lǐng)域奠定了堅(jiān)實(shí)的理論基礎(chǔ)。

囚犯的兩難處境

大理論中的小故事

要了解納什的貢獻(xiàn)，首先要知道什么是非合作博弈問(wèn)題。現(xiàn)在幾乎所有的博弈論教科書(shū)上都會(huì)講“囚犯的兩難處境”的例子，每本書(shū)上的例子都大同小異。

博弈論畢竟是數(shù)學(xué)，更確切地說(shuō)是運(yùn)籌學(xué)的一個(gè)分支，談經(jīng)論道自然少不了數(shù)學(xué)語(yǔ)言，外行人看來(lái)只是一大堆數(shù)學(xué)公式。好在博弈論關(guān)心的是日常經(jīng)濟(jì)生活問(wèn)題，所以不能不食人間煙火。其實(shí)這一理論是從棋弈、撲克和戰(zhàn)爭(zhēng)等帶有競(jìng)賽、對(duì)抗和決策性質(zhì)的問(wèn)題中借用的術(shù)語(yǔ)，聽(tīng)上去有點(diǎn)玄奧，實(shí)際上卻具有重要現(xiàn)實(shí)意義。博弈論大師看經(jīng)濟(jì)社會(huì)問(wèn)題猶如棋局，常常寓深刻道理于游戲之中。所以，多從我們的日常生活中的凡人小事入手，以我們身邊的故事做例子，娓娓道來(lái)，并不乏味。話說(shuō)有一天，一位富翁在家中被殺，財(cái)物被盜。警方在此案的偵破過(guò)程中，抓到兩個(gè)犯罪嫌疑人，斯卡爾菲絲和那庫(kù)爾斯，并從他們的住處搜出被害人家中丟失的財(cái)物。但是，他們矢口否認(rèn)曾殺過(guò)人，辯稱是先發(fā)現(xiàn)富翁被殺，然后只是順手牽羊偷了點(diǎn)兒東西。于是警方將兩人隔離，分別關(guān)在不同的房間進(jìn)行審訊。由地方檢察官分別和每個(gè)人單獨(dú)談話。檢察官說(shuō)，“由于你們的偷盜罪已有確鑿的證據(jù)，所以可以判你們一年刑期。但是，我可以和你做個(gè)交易。如果你單獨(dú)坦白殺人的罪行，我只判你三個(gè)月的監(jiān)禁，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙檢舉，那么你就將被判十年刑，他只判三個(gè)月的監(jiān)禁。但是，如果你們兩人都坦白交代，那么，你們都要被判5年刑。”斯卡爾菲絲和那庫(kù)爾斯該怎么辦呢？他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴，結(jié)果是大家都只被判一年。但是由于兩人處于隔離的情況下無(wú)法串供。所以，按照亞當(dāng)·斯密的理論，每一個(gè)人都是從利己的目的出發(fā)，他們選擇坦白交代是最佳策略。因?yàn)樘拱捉淮梢云谕玫胶芏痰谋O(jiān)禁———3個(gè)月，但前提是同伙抵賴，顯然要比自己抵賴要坐10年牢好。這種策略是損人利己的策略。不僅如此，坦白還有更多的好處。如果對(duì)方坦白了而自己抵賴了，那自己就得坐10年牢。太不劃算了！因此，在這種情況下還是應(yīng)該選擇坦白交代，即使兩人同時(shí)坦白，至多也只判5年，總比被判10年好吧。所以，兩人合理的選擇是坦白，原本對(duì)雙方都有利的策略(抵賴)和結(jié)局(被判1年刑)就不會(huì)出現(xiàn)。這樣兩人都選擇坦白的策略以及因此被判5年的結(jié)局被稱為“納什均衡”，也叫非合作均衡。因?yàn)?，每一方在選擇策略時(shí)都沒(méi)有“共謀”(串供)，他們只是選擇對(duì)自己最有利的策略，而不考慮社會(huì)福利或任何其他對(duì)手的利益。也就是說(shuō)，這種策略組合由所有局中人(也稱當(dāng)事人、參與者)的最佳策略組合構(gòu)成。沒(méi)有人會(huì)主動(dòng)改變自己的策略以便使自己獲得更大利益。“囚徒的兩難選擇”有著廣泛而深刻的意義。個(gè)人理性與集體理性的沖突，各人追求利己行為而導(dǎo)致的最終結(jié)局是一個(gè)“納什均衡”，也是對(duì)所有人都不利的結(jié)局。他們兩人都是在坦白與抵賴策略上首先想到自己，這樣他們必然要服長(zhǎng)的刑期。只有當(dāng)他們都首先替對(duì)方著想時(shí)，或者相互合謀(串供)時(shí)，才可以得到最短時(shí)間的監(jiān)禁的結(jié)果?！凹{什均衡”首先對(duì)亞當(dāng)·斯密的“看不見(jiàn)的手”的原理提出挑戰(zhàn)。按照斯密的理論，在市場(chǎng)經(jīng)濟(jì)中，每一個(gè)人都從利己的目的出發(fā)，而最終全社會(huì)達(dá)到利他的效果。不妨讓我們重溫一下這位經(jīng)濟(jì)學(xué)圣人在《國(guó)富論》中的名言：“通過(guò)追求(個(gè)人的)自身利益，他常常會(huì)比其實(shí)際上想做的那樣更有效地促進(jìn)社會(huì)利益?！睆摹凹{什均衡”我們引出了“看不見(jiàn)的手”的原理的一個(gè)悖論：從利己目的出發(fā)，結(jié)果損人不利己，既不利己也不利他。兩個(gè)囚徒的命運(yùn)就是如此。從這個(gè)意義上說(shuō)，“納什均衡”提出的悖論實(shí)際上動(dòng)搖了西方經(jīng)濟(jì)學(xué)的基石。因此，從“納什均衡”中我們還可以悟出一條真理：合作是有利的“利己策略”。但它必須符合以下黃金律：按照你愿意別人對(duì)你的方式來(lái)對(duì)別人，但只有他們也按同樣方式行事才行。也就是中國(guó)人說(shuō)的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次，“納什均衡”是一種非合作博弈均衡，在現(xiàn)實(shí)中非合作的情況要比合作情況普遍。所以“納什均衡”是對(duì)馮·諾依曼和摩根斯特恩的合作博弈理論的重大發(fā)展，甚至可以說(shuō)是一場(chǎng)革命。

從“納什均衡”的普遍意義中我們可以深刻領(lǐng)悟司空見(jiàn)慣的經(jīng)濟(jì)、社會(huì)、政治、國(guó)防、管理和日常生活中的博弈現(xiàn)象。我們將例舉出許多類似于“囚徒的兩難處境”這樣的例子。如價(jià)格戰(zhàn)、軍奮競(jìng)賽、污染等等。一般的博弈問(wèn)題由三個(gè)要素所構(gòu)成：即局中人(players)又稱當(dāng)事人、參與者、策略等等的集合，策略(strategies)集合以及每一對(duì)局中人所做的選擇和贏得(payoffs)集合。其中所謂贏得是指如果一個(gè)特定的策略關(guān)系被選擇，每一局中人所得到的效用。所有的博弈問(wèn)題都會(huì)遇到這三個(gè)要素。

價(jià)格戰(zhàn)博弈：

現(xiàn)在我們經(jīng)常會(huì)遇到各種各樣的家電價(jià)格大戰(zhàn)，彩電大戰(zhàn)、冰箱大戰(zhàn)、空調(diào)大戰(zhàn)、微波爐大戰(zhàn)……這些大戰(zhàn)的受益者首先是消費(fèi)者。每當(dāng)看到一種家電產(chǎn)品的價(jià)格大戰(zhàn)，百姓都會(huì)“沒(méi)事兒偷著樂(lè)”。在這里，我們可以解釋廠家價(jià)格大戰(zhàn)的結(jié)局也是一個(gè)“納什均衡”，而且價(jià)格戰(zhàn)的結(jié)果是誰(shuí)都沒(méi)錢賺。因?yàn)椴┺碾p方的利潤(rùn)正好是零。競(jìng)爭(zhēng)的結(jié)果是穩(wěn)定的，即是一個(gè)“納什均衡”。這個(gè)結(jié)果可能對(duì)消費(fèi)者是有利的，但對(duì)廠商而言是災(zāi)難性的。所以，價(jià)格戰(zhàn)對(duì)廠商而言意味著自殺。從這個(gè)案例中我們可以引伸出兩個(gè)問(wèn)題，一是競(jìng)爭(zhēng)削價(jià)的結(jié)果或“納什均衡”可能導(dǎo)致一個(gè)有效率的零利潤(rùn)結(jié)局。二是如果不采取價(jià)格戰(zhàn)，作為一種敵對(duì)博弈論(vivalry game)其結(jié)果會(huì)如何呢？每一個(gè)企業(yè)，都會(huì)考慮采取正常價(jià)格策略，還是采取高價(jià)格策略形成壟斷價(jià)格，并盡力獲取壟斷利潤(rùn)。如果壟斷可以形成，則博弈雙方的共同利潤(rùn)最大。這種情況就是壟斷經(jīng)營(yíng)所做的，通常會(huì)抬高價(jià)格。另一個(gè)極端的情況是廠商用正常的價(jià)格，雙方都可以獲得利潤(rùn)。從這一點(diǎn)，我們又引出一條基本準(zhǔn)則：“把你自己的戰(zhàn)略建立在假定對(duì)手會(huì)按其最佳利益行動(dòng)的基礎(chǔ)上”。事實(shí)上，完全競(jìng)爭(zhēng)的均衡就是“納什均衡”或“非合作博弈均衡”。在這種狀態(tài)下，每一個(gè)廠商或消費(fèi)者都是按照所有的別人已定的價(jià)格來(lái)進(jìn)行決策。在這種均衡中，每一企業(yè)要使利潤(rùn)最大化，消費(fèi)者要使效用最大化，結(jié)果導(dǎo)致了零利潤(rùn)，也就是說(shuō)價(jià)格等于邊際成本。在完全競(jìng)爭(zhēng)的情況下，非合作行為導(dǎo)致了社會(huì)所期望的經(jīng)濟(jì)效率狀態(tài)。如果廠商采取合作行動(dòng)并決定轉(zhuǎn)向壟斷價(jià)格，那么社會(huì)的經(jīng)濟(jì)效率就會(huì)遭到破壞。這就是為什么WTO和各國(guó)政府要加強(qiáng)反壟斷的意義所在。

污染博弈：

假如市場(chǎng)經(jīng)濟(jì)中存在著污染，但政府并沒(méi)有管制的環(huán)境，企業(yè)為了追求利潤(rùn)的最大化，寧愿以犧牲環(huán)境為代價(jià)，也絕不會(huì)主動(dòng)增加環(huán)保設(shè)備投資。按照看不見(jiàn)的手的原理，所有企業(yè)都會(huì)從利己的目的出發(fā)，采取不顧環(huán)境的策略，從而進(jìn)入“納什均衡”狀態(tài)。如果一個(gè)企業(yè)從利他的目的出發(fā)，投資治理污染，而其他企業(yè)仍然不顧環(huán)境污染，那么這個(gè)企業(yè)的生產(chǎn)成本就會(huì)增加，價(jià)格就要提高，它的產(chǎn)品就沒(méi)有競(jìng)爭(zhēng)力，甚至企業(yè)還要破產(chǎn)。這是一個(gè)“看不見(jiàn)的手的有效的完全競(jìng)爭(zhēng)機(jī)制”失敗的例證。直到20世紀(jì)90年代中期，中國(guó)鄉(xiāng)鎮(zhèn)企業(yè)的盲目發(fā)展造成嚴(yán)重污染的情況就是如此。只有在政府加強(qiáng)污染管制時(shí)，企業(yè)才會(huì)采取低污染的策略組合。企業(yè)在這種情況下，獲得與高污染同樣的利潤(rùn)，但環(huán)境將更好。

貿(mào)易自由與壁壘：

這個(gè)問(wèn)題對(duì)于剛剛加入WTO的中國(guó)而言尤為重要。任何一個(gè)國(guó)家在國(guó)際貿(mào)易中都面臨著保持貿(mào)易自由與實(shí)行貿(mào)易保護(hù)主義的兩難選擇。貿(mào)易自由與壁壘問(wèn)題，也是一個(gè)“納什均衡”，這個(gè)均衡是貿(mào)易雙方采取不合作博弈的策略，結(jié)果使雙方因貿(mào)易戰(zhàn)受到損害。X國(guó)試圖對(duì)Y國(guó)進(jìn)行進(jìn)口貿(mào)易限制，比如提高關(guān)稅，則Y國(guó)必然會(huì)進(jìn)行反擊，也提高關(guān)稅，結(jié)果誰(shuí)也沒(méi)有撈到好處。反之，如X和Y能達(dá)成合作性均衡，即從互惠互利的原則出發(fā)，雙方都減少關(guān)稅限制，結(jié)果大家都從貿(mào)易自由中獲得了最大利益，而且全球貿(mào)易的總收益也增加了。

上一條：獵狗與兔子——人力資源管理的目標(biāo)是什么？

下一條：帕累托法則

電話：0871-66212248，王進(jìn)美 13658808101

新聞導(dǎo)航

推薦新聞

電話：0871-66212248，王進(jìn)美 13658808101

新聞導(dǎo)航

推薦新聞

相關(guān)文章