财新传媒

法和经济学简史

来源于 《比较》 2019年第6期 出版日期 2019年12月01日
文|考希克·巴苏

博弈论简介

  博弈论是对互动理性的分析。当你做出理性决策时,如果对方是自然界事物,例如机械装置,它们并没有能力或意图想胜过你;但如果对方也像你一样具有理性,并试图猜测你可能会做什么,两者之间显然有着明显的区别。因此,当你根据天气预报并决定是否要带雨伞时,你通常不必担心大自然会根据你是否带伞而改变它关于下雨的决定。但1962年当苏联在古巴部署弹道导弹,约翰·肯尼迪在谋划他和美国应该做些什么的时候,他肯定思考了很多赫鲁晓夫在想什么。毫无疑问,赫鲁晓夫也在考虑肯尼迪会怎么想。这是一个典型的博弈论问题。(*1.需要澄清的是,即使是在天气预报的例子中,关于穿什么衣服的决定也可以被认为是一个博弈论问题,尽管有些琐碎,但本质上看这是一种单人博弈。从这个意义上说,标准的个人决策只是博弈论的一种特例。)用奥曼的话说,即“互动决策理论”,它也许是对博弈论这门学科更准确的称呼(Aumann, 1987, 第2页)。

  在博弈论的场景中,你可能犯的最大错误就是没有考虑其他参与者的理性。几年前,我为《科学美国人》(Scientific American)杂志撰稿,面对的是一些可能不熟悉博弈论的读者,我用在印度听到的一个故事说明博弈论的中心思想(Basu,2007)。有一个卖帽子的人,从一个村庄赶往另一个村庄,在途中他感到昏昏欲睡,就把帽子集中放在一棵阴凉的树下,睡着了。当他醒来时,沮丧地发现所有的帽子都不见了。原来是一群猴子把帽子都带到树顶,并戴上了帽子。他又气又急,摘下自己的帽子扔了出去。众所周知,猴子是最好的模仿者。很快,所有猴子都扔下了它们的帽子。卖帽人松了一口气,捡起帽子就走了。

  四十年后,他的孙子也成了一个帽商,在带着货物从一个村庄赶往另一个村庄时,也想打个盹,于是他放下帽子就睡了。当他醒来时,发现猴子们已经把帽子都带到树顶,并戴上了它们。他很绝望,该怎么办呢?然后他就想起了爷爷的故事。他松了口气,脱下自己的帽子扔了出去。然而,这时有一只猴子蹿下树来,捡起帽子紧紧地夹在胳膊下,然后走到卖帽子的人跟前,狠狠地拍了他一巴掌,说:“你以为只有你有爷爷吗?”

  这个故事的寓意揭示了博弈论思维的本质。当你在做出自己的决策时,也要考虑别人的理性。许多政府福利项目出了问题,正如我们在前文看到的,是因为政府在设计这些项目时,没有考虑那些实施项目的代理人也有自己的想法和愿望。例如在印度粮食配给体系中的那些配给商店的店主。

  形式上,要描述一个博弈,需要定义三个构成要素。(*2.我在此描述的是一种正常形式或策略形式的博弈。在本书的第四章,我们还会遇到扩展形式(extensive-form)的博弈并对其进行简要的介绍。对博弈论和法律之间的互动更为全面和杰出的研究,参见Baird、Gertner and Picker (1994),他们探讨了扩展形式、不完全信息以及合作讨价还价理论等议题。的确,一个有趣的问题是:为什么合作博弈没有像本节所述的非合作博弈那样被广泛应用,可参见Maskin (2016)以了解要改变这种状况我们需要跨越的一些障碍。)首先,我们需要指定一组参与者;其次,对于每个参与者而言,都有可行的策略或行动集,参与者必须从中选择其一;最后,一旦所有参与者选择了各自的行动,每个参与者都会得到相应的回报或收益,这就是所谓的回报函数。每个参与者的目标,就是做出选择以最大化自己的收益,这种最大化自身收益的行为被称为理性行为。大多数博弈论模型建立在假设所有参与者都是理性的基础上,并假设这种理性已经成为参与者的共同知识,这意味着所有参与者都知道“所有参与者都是理性的”;所有参与者都知道“所有参与者都知道‘所有参与者都是理性的’”;所有参与者都知道(所有参与者都知道“所有参与者都知道‘所有参与者都是理性的’”),我相信读者肯定希望就此打住,但基本上所有这些高阶假设都必须成立。(*1.上述高阶假设并非总是成立的,关于理性的共同知识的存在或缺失往往会造成关键性的差异(Aumann,1976;Basu,1977)。关于高阶知识在不同领域的作用,有一些引人入胜的论述。参见Rubinstein(1989),Morris and Shin(1998),Gintis(2010)。)

  一个博弈的均衡结果是什么?有许多不同的方法来回答这个问题,我们将在后面遇到其中的一些类型。但这里有必要介绍一个可能是应用最广泛的概念——纳什均衡。在博弈中,每个参与者都有一组策略或行动可供选择,如果没有一个参与者可以通过单方面地偏离他(或她)的选择来得到更好的回报,即为纳什均衡。

  让我用一个例子解释刚刚引入的概念,这可能是博弈论中最著名的例子,即“囚徒困境”博弈。这个博弈的名字来自一则寓言故事,囚徒困境博弈中有两个参与者——参与者1和参与者2,每个参与者必须在行动A或B之间做出选择。行动代号的命名以有助于记忆,稍后将指出B代表“不好的行为”(bad behavior)。每个参与者通过选择所获得的回报,参见博弈1中的表格或回报矩阵。参与者1在行之间选择,参与者2在列之间选择,回报矩阵中显示了他们各自的收益。在回报矩阵中的每对数据,左边的数字是参与者1在行之间选择所获得的收益,右边的数字是参与者2在列之间选择所获得的收益。我通常以美元作为收益的单位,但也可以用“幸福”或“效用”为单位。

1

  很明显,在囚徒困境博弈中,理性参与者最终选择的结果将是(B,B),因为无论对方选什么,选择B对每一个参与者来说都是更好的策略。这个结果对于双方来说都是悲剧性的,因为他们本来有机会都获得7美元,但最终却都只获得了2美元。这是一个熟悉的故事,我们在生活的许多不同领域和场景中都会遇到,例如“公地悲剧”,即每个人都利用自然环境满足他(或她)的个人利益,但最终导致了集体的糟糕行为,比如过度放牧。在朗西曼和森(Runciman and Sen,1965)对卢梭的“共同意志”(general will)的解释中,我们也看到了同样的观点。

  很容易看出(B,B)是一个纳什均衡。因为参与者1如果单方面偏离B而选择A,那么他(或她)获得的收益就将从2变成1,所以参与者1不会因改变选择而获得更好的回报。参与者2面临的情景也是一样。

  囚徒困境博弈也存在一个问题,虽然其纳什均衡的结果极其令人信服,几乎没有人会对此提出异议,因为无论对方做什么,你都会选择B。但这个问题的博弈论特征或参与者在做决策时的互动本质,就不那么明显了。为了说明这一点,让我介绍另一个相关的博弈,即“旅行者困境”博弈(Basu,1994b),它也是一个有用的例子。

  旅行者困境博弈也来自一个故事,两位旅行者从一个偏远的岛屿度假归来,每个人都购买了同样的乡村纪念品,他们发现这些物品在托运中都被航空公司损坏了,因此要求赔偿。航空公司经理给出了这样的赔偿规则(*1.在最初的故事中,为了暗示接下来会发生什么,这位经理被下属描述为一个“公司老手”,即指“一个有些狡猾的人”。):因为不知道这些特殊纪念品的真实价格,所以让每一位旅行者写下一个数值,即从2到100的整数。如果两人写的是同样的数值,经理会将其作为真实的价格,然后以美元赔偿他们。如果两人写了不同的数字,经理会以较低的数值作为物品的真实价格加以赔偿。与此同时,还有额外的奖励和惩罚,写较低数值的人将获得额外的2美元(作为诚实的奖励),写较高数值的人将被扣去2美元(作为惩罚)。因此,如果两人都写97,则每人将获得97美元。如果旅行者A写97而B写50,A将获得48美元而B将获得52美元。

  容易得出上述博弈唯一的纳什均衡是(2,2),即A和B都会写下2。很明显在旅行者困境博弈中,参与者只要可能,总是最好选择一个恰好低于对手所写的整数。因此,没有人可以通过偏离原先选择而获得更好回报的唯一一对策略,是两人都写2。

  这个博弈事实上建立在极其严格的推理上,每个参与者都是理性的,理性也作为参与者的共同知识,根据这个共同知识,双方都会预料到(2,2)的结局。为了理解这个结果,先假设从旅行者写下100开始。如果两人都写100,那么每人都将获得100美元。这是一个不错的赔偿结果(毕竟乡村纪念品其实很便宜)。然而,一个旅行者很快就会发现,如果两人都写100,那么自己最好是换成写99,因为那样就会得到101美元。然后,因为两位旅行者都是理性的,另外一位也会换成99。在这种情况下,两人都会得到99美元。但是更进一步,又有一位旅行者会写98(因为这样会得到100美元),同样另一位旅行者也会这么做。这个逆向推理的逻辑是残酷的,最终的结果是两个人均只能得2美元。

  另一种推理方法如下:首先,很容易看出100不是合理的选择,因为无论对手怎么选,你写99的所得至少与写100的所得一样多,在对手的某些选择下实际所得会更多。因此,由于两位参与者都是理性的,所以双方都会把100从可选的策略中去掉。接着,一旦你划掉了100这个选项,又容易看出写98会比写99更好,这样你又会去掉99这个选项。同样,这也是个残酷的过程,最终只会导致一个可能的结果(2,2),这就是“迭代剔除劣势策略”的逻辑,在这种推理方式下,所导致的最终结果与上述“合理化”逻辑是一样的(Bernheim,1984;Pearce,1984)。

  上述的推理过程不足为奇,因为旅行者困境博弈就是被设计成使所有的形式推理都得出相同的预测结果,这样做是为了故意造成与人们直觉的冲突(Basu,1994b,2007)。(*1.在哲学家Martin Hollis(1994)设计的类似博弈,即姜饼博弈(Gingerbread game)中,其哲学含义更为明显。)有大量实验和理论文献表明,这些形式化的博弈论预测是不正确的。(*2.例如参见Goeree and Holt(2001),Wolpert(2008),Pace(2009),Gintis(2009),Arad and Rubinstein(2012),Manapat、Rand、Pawlowitsch and Nowak(2012),Capraro(2013),Morone、Morone and Germani(2014)。)例如,逆向推理的论证,假设理性是两位参与者之间的共同知识,即A知道B是理性的,B也知道A是理性的;A知道(B知道A是理性的),B也知道(A知道B是理性的),以此类推,无穷无尽。对这种假设的合理性我们可提出质疑,稍后我将有机会探讨其中的一些问题。

  上面两个博弈,让我们马上意识到了对法律的需要。市场这只“看不见的手”,据称会使个人的自利行为导致社会的最优结果,显然在这里并不成立,因此促使我们采用法律之手。(*1.在形式化的理论中,社会最优可被精确地定义,它采用的是最早由帕累托提出的概念,即“帕累托最优”。在一个“帕累托最优”的社会,不存在任何机会,能使一个人的处境变得更好的同时而不让其他人的处境变得更糟。)如果仅依据上述新古典的法和经济学方法,该如何做到这一点呢?这里的思路是利用法律使社会转向更好的结果。正如麦克亚当斯(2000,第1650页)指出的:“通过对个人施加责任或惩罚,国家法律改变了人们的回报,使得合作而不是背叛成为占优策略。”(*2.在Coase(1960),Calabresi(1961),R Posner(1977)和Schauer(2015)的作品中,也有类似的观点。)

  很容易看出,法律干预如何能在囚犯困境博弈中发挥作用。(*3.囚徒困境博弈的核心任务之一,是显示政治机构如何发挥作用以使人们能够真正实现自身的利益。正如Swedberg(2005,第83页)所言:“囚徒困境博弈可以被看作一个例子,表明我们可以改变现有的制度安排,以便参与者能够最大化他们的个人利益。”他清楚地意识到了法律的特殊作用,继续补充道:“在这个特殊的例子中,现有的制度安排就是美国的司法体系。”)假设国家通过了一部法律,规定行动B是违法的,任何选择行动B的人都必须支付相当于2美元的惩罚。这一惩罚可以是实际罚款2美元,或者囚禁一段时间以造成相当于2美元的痛苦。这样就改变了原有的博弈,相应的回报矩阵参见博弈2。新的博弈与原先的唯一区别是,当有人选择行动B时,他的回报将被扣除2美元。

1

  在新博弈中,选择行动A成了占优策略,无论对手选什么,你选A的所得都比其他选择要好。这样博弈的结果就被改变了。参与者获得了更好的社会结果(A,A),这也是一个纳什均衡。如果听任一个社会发展,可能会陷入一种糟糕的结果,而法律则可以使其偏离原有的轨道,以达到一种更优的社会处境,这就是法律最重要的目标之一。(*1.这并非法律的唯一目标,事实上还有正义、公平和个人自由等相关的其他目标,这些目标有可能与前面所述的“帕累托最优”目标相冲突,其中一个最著名的例子是“自由悖论”(Sen,1969)。参见Gaertner、Pattanaik and Suzumura(1992)。)

  对于旅行者困境博弈,也可以进行类似的法律干预。例如制定一项法律,规定如果你选择任何数字n,则必须支付(100-n)的罚金。换言之,如果你选择100,不需要支付任何罚金;而你所选的数字越小,支付的罚金则越多。如果将此罚金加到旅行者困境博弈中的参与者回报上,很明显这一改进的旅行者困境博弈会有一个新的均衡结果,参与者会选择更大的数值,即(100,100),它现在也成了一个纳什均衡。

  这些例子说明了法和经济学的传统观点,法律的作用是改变社会进行的博弈,在囚徒困境博弈中,博弈1就被改变成了博弈2。正如上面的例子所示,法律能够使社会达到一个帕累托更优的结果,或者是一个更公平公正的结果,或者是其他任何我们想要追求的结果。简而言之,这就是传统、新古典或芝加哥的方法。正是此方法中简洁和清晰明了的模型,使得模型方法脱颖而出,迅速成为开展法和经济学研究甚至政策设计的试金石,它赋予了法和经济学应有的地位。

  [《比较》印刷版,点此订阅,随时起刊,免费快递。]

版面编辑:许金玲
财新网主编精选版电邮 样例
财新网新闻版电邮全新升级!财新网主编精心编写,每个工作日定时投递,篇篇重磅,可信可引。
订阅