如果说有一种解决问题的方法能跨域文化、种族和地域,那么除了抽签这种纯靠运气的方式,恐怕只剩下猜拳了。人们普遍认可“石头-剪刀-布”三者之间的克制关系。“公平+随机”的特性使其不仅是活跃气氛的小游戏,更能作为一种相对公平的解决问题的手段,广泛应用在解决分歧,决定顺序,或者确定归属的关键时刻。
更不用说,在谁洗碗、谁拖地、谁做饭之类的家务活上,猜拳自带的“愿赌服输”可以有效维系家庭和睦,堪称随叫随到的家庭关系调解员。
在大多数人的认知里,猜拳是随机事件,玩家获胜的概率应该是一样的且恒定在三分之一,但事实可能并非如此。
近日,浙江大学何赛灵教授的研究团队开发了一个基于马尔可夫链的AI模型,专门用来玩猜拳游戏。在和52名人类玩家分别大战回合之后,AI击败了95%的玩家。
图
AI模型净胜场数变化
对于人类玩家来说,规则是赢+2分,平+1分,输不得分。在与AI对战之前,参与者知道获胜会获得金钱奖励,总分越高,赢的钱越多。因此玩家故意放水或者随便乱选的概率极低。
即便如此,AI仍然大胜人类。在最悬殊的一场较量中,AI获得了次胜利,55次平手,仅输了47次,胜率超过人类对手4倍。全部回合详尽的原始博弈数据,在论文的补充资料中给出(详见参考文献)。如果猜拳胜负真的是随机概率,那么从统计学的角度来讲,场比赛下来,AI获得如此大优势的概率非常低。
拥有“智囊团”的Multi-AI模型
本质上来看,猜拳属于博弈问题,其背后蕴藏着经典的纳什均衡,而每个个体的习惯、认知、策略和策略变化都会影响实际胜率。比如你和对手很熟悉,那么你可能知道他/她经常出布,因此可以多出剪刀来克制。
浙江大学何赛灵教授团队提出的AI模型就是利用了类似的方法,证明了猜拳真的存在针对不同个体的长期制胜策略,可以有效提高胜率。这套AI模型基于n-阶马尔可夫链设计,拥有记忆性,能够向前追溯最多n个历史状态并加以利用。为了在实战中应对人类玩家的不同性格和策略,研究团队还发明了一套Multi-AI模型。“建立对每个人都有效的单一模型很困难,因此我们决定将单个模型结合起来,使其能够区分和适应更多不同的竞争策略。”研究人员在论文中解释称。在与人类对战的第一套Multi-AI模型中,他们放入了1-5阶马尔可夫链,即5个独立的AI模型,分别参考之前1-5个动作。Multi-AI会从整体上参考5个AI模型各自的决策,至于选择哪个,还要看它们最近5次的表现。这里的“最近5次”被定义为一个超参数,名为Focuslength,可以视情况调整大小,实现进一步优化。在与人类对战的第二套Multi-AI模型中,该参数就被设为了10。
图
Multi-AI模型的决策逻辑打个比方,每一个n阶马尔可夫链模型就像是一位军师,各自有不同的决策标准。而Multi-AI模型就是司令,手底下有好多名军师组成的智囊团。做决策时,每个军师会提交自己的出拳建议,司令会根据他们过去几次(FocusLength)的表现,采纳综合分数最高的人的建议,以提高长期胜率。如果人类玩家连续胜利,就会促使Multi-AI转向选择其他AI模型的更优解。如果人类玩家连续失败,大概率会转换策略,或者打破之前的出拳规律,这时Multi-AI也可以随之调整。最终的社会实验结果反映出了这个想法的有效性。在52名志愿者中,只有不到5人击败了AI。很多人都在最初20-50个回合里处于领先,但随后就被AI捕捉到了隐藏的行为模式,饮恨败北。那些击败AI的人,胜率也只是稍微高出一些,并未拉开太大差距。
6年前被质疑的研究
值得一提的是,在开发AI模型背后的算法时,研究团队阅读了6年前另一个浙大团队的研究成果,但使用了另一种不同的博弈策略。相较于之前对于所有玩家数据整体以统计学的方式进行研究,这里的Multi-AI模型更强调针对不同玩家之间的个性差异、出拳策略,来及时的进行调控,选取当下最适宜的博弈策略。年5月,很多媒体都报道了一项以“石头剪刀布”游戏为对象的科研成果。
这项研究课题原本是“可控实验社会博弈系统中一些非平衡统计物理问题”,但媒体和舆论