纳什均衡与博弈论无错TXT小说阅读-第12节-力力小说网

　　第五节　背叛还是合作

　　如同在我所有的书里一样，埃德加·爱伦·坡（Edgar　Allan　Poe）又一次预见了问题的关键点。在《玛丽罗热疑案》中，爱伦·坡描述了一起谋杀案，杜宾侦探相信它是由一个团伙所为。杜宾的策略是以豁免的机会诱使团伙中的第一个成员坦白。“团伙中的每一个人，在这种处境下，并不十分……渴望逃跑，而是害怕背叛，”坡的侦探这样推理，“他急切地更早地背叛，这样他自己就不会被背叛。”很遗憾，爱伦·坡（实际上他本身是个训练有素的数学家）没有思考过如何解决这种背叛问题的数学——否则他可能早在一百年前就提出了博弈论。

　　事实上，纳什在普林斯顿的教授，阿尔伯特·乌·塔克（Albert　W。Tucker），于1950年第一次在博弈论中描述了囚徒困境。那时塔克正在斯坦福访问，他提到了自己对博弈论的兴趣。塔克意想不到地被邀请在一个研讨会上发言，因此他很快地想到了两名罪犯被警察抓住并被分开审问的场景。

　　就像你想的那样，警察们有足够的证据证明两名罪犯次要罪行，但是要使持枪抢劫的主要罪行成立还需要其中一个人来揭发他的同伙。因此，如果两个人都保持沉默，将分别被判一年的刑。但是不管其中的哪个人揭发了同伙，他就将被释放。如果只有一个人招供，他的同伙将被判5年。如果两个人相互出卖，将都被判3年的刑（由于坦白从宽减免两年）。

　　鲍勃和爱丽丝被判入狱的年限

　　看到这个博弈矩阵，你将很容易找到纳什均衡。只在一种选择组合下两人都没有改变决策的动机——他们相互背叛。让我们仔细考虑一下。假设我们的博弈专家爱丽丝和鲍勃决定犯罪，但是警察抓住了他们。警察对鲍勃进行审讯，并告知了博弈的规则。鲍勃必须马上做出决定。他要考虑爱丽丝会做什么决策。如果爱丽丝出卖了他——据他对爱丽丝的了解，这很有可能——他最好的选择是也出卖她，因此他将只被判3年而不是5年。但如果爱丽丝保持沉默，他的最佳选择依然是出卖她，那样他将被释放。无论爱丽丝选择了什么策略，鲍勃的最佳选择都是背叛，正如艾伦·坡的侦探所觉察到的那样。很明显的，爱丽丝也会像鲍勃一样推断。唯一稳定的结果是两个人都坦白，出卖他们的同伙。

　　具有讽刺意味的是，这个问题之所以被称为困境，是因为如果两人都保持沉默，双方的境况都会更好一些。但是他们被分开审讯，不允许互相交流。因此单个人的最佳选择并不能导致团队的最佳选择。如果他们都保持沉默（也就是，他们相互合作），他们总共会在狱中度过两年（每人各1年）。如果一个人出卖了同伙（专业术语是背叛），而另一个人保持沉默，他们总共被判5年（全部由保持沉默的那个人承担）。但当他们相互背叛，他们总共被判六年——和其他所有策略组合相比在总体上是最坏的结果。纳什均衡——个人利益驱动下做出的稳定的策略组合——产生了一个更差的总体收益。从博弈论和纳什的数学方法来看，这种选择是明确的。如果每个人的动机是获得最大的个人利益，恰当的选择就是背叛。

　　当然，在现实生活中你永远不知道会发生什么，因为背叛者可能有其他的考虑（例如如果错误地出卖了同伙他们可能也会难逃一劫）。因此，纳什的均衡计算并不总能够预测事实上人们会如何行动。有时人们为公平起见而调整了他们的策略，而有时则出于恶意来做决定。在囚徒困境的情形中，一些人确实会选择合作。但这样并没有贬低了纳什均衡的重要性，正如经济学家查尔斯·霍尔特（Charles　Holt）和阿尔文·罗斯（Alvin　Roth）所指出的那样，“纳什均衡的用处不只局限于其能准确预测人们如何在博弈中行动，即使不能预测时它也非常有用，”他们写道，“因为此时纳什均衡可以辨别出什么情况下个人动机和其他动机之间存在着紧张关系。”所以如果人们在囚徒困境情况下合作（至少开始是合作）时，纳什的数学方法告诉我们这种合作“因为不是一种均衡，所以不稳定，以致很难维持下去。”

　　虽然囚徒困境只是现实生活的简化，但是它确实体现了诸多社会交互的本质。但显然你不能通过计算纳什均衡来轻易地估计任何社会情况。现实生活中的博弈通常涉及很多人和复杂的利益规则。虽然纳什证明了至少存在着一个均衡，但算出这个均衡是什么就是另外一回事了（而且通常有不止一个纳什均衡点存在，这使得事情变得非常复杂）。记住，每个人的“策略”都是精心地从数十数百数千（或者更多）的“特定”的纯策略中提取出来的混合策略。在大多数多人博弈中，计算所有选择组合的概率超出了英特尔、微软、IBM和苹果四大厂商计算能力的总和。

　　第六节　公共物品

　　尽管如此，这并非毫无希望。让我们来看另一个用来解释“背叛”的著名博弈——公共物品博弈。它描述的是团体里的一些成员没有尽到责任但却分得成员利益。就好像看公共电视却从不承诺任何的资金支持。乍看来，背叛者赢得了博弈——分文不花就可以收看侦探福尔摩斯和波洛的电视。但是，请想一下，如果每个人都背叛，将没有人能获益。搭便车的人将变成搭不到便车的倒霉者。

　　类似的，假设你的社区决定集资建一个公园。你喜欢这个提议，但是如果你认为会有足够的邻居捐了足够的钱来建它，你可能不会捐款。如果每个人都这样想，就不会有公园了。但假设背叛（拒绝捐款）和合作（捐出你的份额）并非仅有的可行策略。可能会有第三种策略，称之为双赢策略。如果你是一个互惠者，你只在确保一定数量的其他人捐款的情况下才会捐钱。计算机对这种博弈的模拟告诉我们，玩家采取这些策略的混合策略可能达到纳什均衡。

　　真人参与的实验得到了同样的结果。2005年报道的一项研究对大学生们在一个人为设计的公共博弈中的行为进行了实验。4个玩家都得到了一些代币（代表钱）并且被告知他们可以按自己的意愿捐任意多的钱到一个“公共储蓄罐”，剩下的将保留在个人账户中。实验者然后将使罐子中的代币进行翻倍。每次有一个玩家被告知储蓄罐里已捐献了多少钱，并且有一次改变自己捐赠的机会。当游戏结束（轮数是随机的），储蓄罐里所有的代币将均分给所有玩家。

　　你会如何玩这个游戏？因为在最后4个人平分罐里的钱，向罐中放进最少钱的那个人将得到最多的代币——包括他们所均分的罐中的钱加上自己保留在个人账户里的钱。当然，如果没有人向罐子里放钱，就没有人会因实验者的慷慨而受益，有点像地方政府拒绝为一个高速公路进行联邦基金注资。因此向罐中投一些钱看起来是个不错的选择。但如果你想要比其他人得的更多，你必须比其他人投的更少。哪怕只是一个代币。从另一方面来说，如果你向罐中投入了更多的钱，组中的其他人也将获得更多。（在这种情况下，你可能不会比其他人得的多，但这比你不这么做要好一些。）

　　当4个玩家反复进行这个游戏，就会出现一种行为模式。玩家们很容易地分成3种已知的类型：合作者、欺骗者（或搭便车者）和互惠者。因为所有人在某个时点都知道已经捐赠了多少钱，他们可以据此调整自己的行为。一些人仍然保持吝啬（欺骗者），一些人继续慷慨捐献（合作者），一些人会在组织其他成员大量捐赠时，愿意捐献更多（互惠者）。

　　几轮游戏下来，每组的成员获得了同样多的钱，表示达到了类似纳什均衡的稳态——他们都在给定其他人策略的前提下赢得了尽量多的钱。换句话说，在这种博弈中，人们采用了混合策略——大约13％的人是合作者，20％是欺骗者（搭便车者），在这个特定的实验中60％的人是互惠者。“我们的结果说明了受试人群是在一个稳定的……多类型的均衡中，”研究者罗伯特·库斯本（Robert　Kurzban）和丹尼尔·豪泽（Daniel　Houser）这样写道。了解纳什均衡有助于理解诸如此类的结果。

　　第七节　博弈论的今天

　　纳什关于多人博弈均衡的研究与他关于讨价还价问题的论文（讨论了合作博弈的情形）一起，对冯·诺伊曼和摩根斯特恩的合著做了极大的拓展，为当今的大多数博弈论研究提供了基础。当然，博弈论不仅仅是纳什均衡，但是纳什均衡仍然是今天人们致力于将博弈论应用于现实生活的核心。

　　多年以来，博弈论发展出了解决存在联盟的博弈、信息不完全的博弈、非完全理性的博弈的数学工具。用博弈论复杂的数学工具可以针对以上情形以及其他更多的情形建立模型。需要用一整本书（事实上，几本书）来描述所有那些后续的发展（而且已经有很多本这样的书出版了）。我们不需要了解博弈论史的所有细节，但重要的是，我们必须知道博弈论拥有一段丰富且复杂的历史。这是一门深刻且复杂的学科，由于得益于大量数学技巧，而变得高度专业和严密。

　　即使在今天，博弈论依然是一门不断发展的学问。很多深入的问题似乎还未得到具有说服力的答案。实际上，如果你细读博弈论的各种文献，你可能会感到困惑。博弈论的研究者们并非都同意对博弈论某些方面的解释，而且他们肯定对如何宣传博弈论有争议。

　　一些观点像是在表达博弈论应当预测人类行为——人们在博弈中（或在经济或生活的其他领域中）会做出什么选择。另一些人坚持认为博弈论无法预测，它只是进行了规定——它告诉你需要做什么（如果你想在博弈中胜出），而非玩家们在博弈中真正将要做

《纳什均衡与博弈论》

下载本书

纳什均衡与博弈论- 第12部分