以下引用自:[英] 理查德·道金斯著.自私的基因(40周年增订版).中信出版集团.2018:14.
第12章好人终有好报(节选)
阿克塞尔罗德将这15个策略翻译成一种常用的计算机语言,在一台大型计算机中设定这些策略互相博弈。每个策略轮流与其他策略(包括它自己)进行重复博弈。15个策略总共组成15×15=225个排列组合,在计算机上轮番进行。每一个组合需要进行200回合的博弈,所有输赢累积计算,以得出最终的赢家。
这里,我们不关心某一个策略是否优于另一个策略,我们只关心哪个策略在与15个对手博弈后,最终赢得最多的“钱”。在这里,“钱”指的是赢得的分数。相互合作的奖赏为3分,背叛的诱惑为5分,互相背叛的惩罚为1分(相当于我们早先例子中的轻判),失败的代价为0分(等同于之前例子中的重罚)。
表12-3 阿克塞尔罗德的计算机竞赛:我在各种结果中所得的回报
无论是哪一种策略,理论上它们能得到的最高总分都是15 000分(每一回合5分,15个对手共有200回合),最低分则是0分。不用说,这两个极端都没有实现。实际上,一个策略如果能超过15个对手中的平均水平,最多也只能获得比600分高出一些的分数。因为如果双方决定持续合作,每人在200场博弈中都能得到3分,总共便是600分。我们可以将600分作为基准分,将所有分数表达为600分的百分比。这么算来,理论上面对一个对手的最高分将是166%(1 000分)。但事实上,没有任何一个策略的平均分超过600分。