博弈论平话 - 囚徒困境与博弈三要素

一次严重的纵火案发生后，警察在现场抓到甲乙两个犯罪嫌疑人。事实上正是他们为了报复而一起放火烧了这个仓库，但是警方没有掌握足够的证据。于是，警方把他们隔离囚禁起来，要求坦白交代。如果他们都承认纵火，每人将入狱三年；如果他们都不坦白，由于证据不充分，他们每人将只入狱一年；如果一个抵赖而另一个坦白并且愿意作证，那么抵赖者将入狱五年，而坦白者将得到宽大释放，免于刑事处罚。这样，两个犯罪嫌疑人面临的博弈格局如下面表格所示。和前面几节一样，每个格子中左下角的数字是甲的博弈所得，右上角的数字是乙的博弈所得。现在，这些数字都不是正数。

表述一个博弈的基本要素有三个：第一，参与人或者局中人（players）；第二，他们可选择的行动（actions）或策略（strategies）；第三，所有可能的对局的结果，用局中人在相应对局下的博弈所得来表示，这个博弈所得，叫做赢利、赢得、得益或支付（payoffs）。将来，我们主要采取“支付”的说法。这里注意，“支付”要理解为因为他们参与博弈所得到的支付，而不是他们付出的支付。

在诺曼底登陆模拟博弈中，博弈的两个参与人是盟军和德军；盟军可以选择的策略是a、b、c，德军可以采取的策略是A、B、C和D；博弈的各种对局下双方之支付则是相应格子中的+和–，或者我们可以把它们改写为+1和–1。而在这一节上面介绍的博弈中，博弈的两个参与人是犯罪嫌疑人甲和犯罪嫌疑人乙；他们可以选择的策略都是同样的两个，即坦白和抵赖；甲在各种对局下之博弈所得，是相应格子里面左下角的数字，乙在各种对局下之博弈所得，是相应格子里面右上角的数字。

概括起来，三要素是：

参与人或者局中人；

他们可以选择的行动或策略；

每个参与人在各种对局下的博弈所得，叫做赢利、赢得、得益或支付。

这种用矩阵形式的表格表示两个参与者的博弈所得的做法，来自博弈理论的一位先驱者托马斯·谢林（Thomas C. Schelling）。美国普林斯顿大学经济学系的迪克西特（Avinash K. Dixit）教授和耶鲁大学经济学和管理学教授奈尔伯夫（Barry J. Nalebuff）在他们的博弈论普及读物《策略思维》中告诉我们，谢林教授曾经说过：“假如真有人问我有没有对博弈论作出一点贡献，我会回答有的。若问是什么，我会说我发明了用一个矩阵反映双方得失的做法……我不认为这个发明可以申请专利，所以我免费奉送，不过，除了我的学生，几乎没有人愿意利用这个便利。现在，我也供给各位免费使用我发明的矩阵。”

谢林教授这么说，实在是太谦虚了。要知道，他在1960年出版的著作《对抗的策略》，迄今是博弈论方面很有影响的文献。他的其他论著，有《抉择与后果》、《军备与势力范围》、《策略分析与社会问题》等等。他对博弈论有非常大的贡献。虽然谢林教授的博弈论写作以著作为主，与其他博弈论学者以论文为主很不相同，并且谢林的写作以语言描述为主，很少采用更加时髦的数学形式的推导，但是他对于博弈论的巨大的和启发性的贡献，最终还是得到国际学界的承认。喜欢语言描述的谢林教授和非常数学化的奥曼（Robert Aumann）教授，因为对于博弈论的巨大贡献，一起获得2005年度的诺贝尔经济学奖。