早在 2016 年,《权力游戏》第六季播出前,慕尼黑工业大学(TUM)学生就开发了 AI 应用程序,预测剧中人物的存活概率。
近两年后,《权力游戏》第八季也是最后一季,终于 15 日回归了。再过 6 个多星期,我们就会知道这部剧 8 年的目标达成与否:多少角色领便当。
和这部剧一起回归的还有当年的学生团队,他们使用自己设计的 AI 算法,在网络搜寻相关资料,并计算剧中每个角色的生存概率。
如果你认为机器学习的预测只是胡言乱语,可别忘了,这群学生之前做的算法就成功预测了雪诺(Jon Snow)复活。
(Source:PHYS/GoT-Team 2019 / TUM)
算法预测,龙母(Daenerys Targaryen)最有可能在这个痛苦的世界活下来,存活概率为 99%。她的国王之手小恶魔(Tyrion Lannister)存活率也高达 97%。
Jon Snow 是稍微复杂的命题,但算法预测,他在第八季幸存的机会为 88%,可说非常强劲。
从统计资料看,Bronn 几乎肯定会死,预测死亡率为 93%;Gregor Clegane 死亡率也高达 80%;珊莎(Sansa Stark)出生在临冬城,且已结婚,死亡率为 73%;妹妹艾丽娅(Arya Stark,同时也是十足的坏蛋) 存活概率略高,预估死亡率为 47%。
当然,这只是算法分析的结果,说到底,只不过是又一次证明机器学习能力的伟大实验。
算法“魔力”何在?
机器学习能从过去的海量案例学习,并自动编译统计资料,然后预测未来。
《权力游戏》只有少数角色死于老去,大多数角色下台都以暴力收场。这不仅让人深思,剧中的死亡是随机发生,还是只发生在表现出类似特征的人身上?这些特征可能是年龄、血统和性别,也可能是角色做出错误的重大决定。
算法尝试分析所有死亡角色的共同特征,然后利用共同特征来预测存活角色的死亡百分比(PLOD)。算法分析的资料撷取自小说《冰与火之歌》和影集《权力游戏》维基百科内容,这可能是分析系列 5 本书和 8 季电视剧约 2 千个角色的最佳资源。
算法不仅从数据库撷取每个角色的死亡或存活资讯,还撷取了说明角色的其他特征。这样,资料集就产生了,可用同一特徴来说明不同角色无论死亡或存活。下一步就是,找到最能区分死角和活角的特征集。
贝叶斯生存分析
此机器学习模型使用与贝叶斯推理相关技术,检验不同特征与角色寿命的关系,类似检验治疗和并发症对癌症患者的影响,或检验地震事件之间的相关性。
团队假设,一个角色的一生,每年都有一定概率死亡。这基本死亡率对所有角色都一样,但特征不同会让死亡概率增加。例如,男性可能会让死亡风险增加 60%。
透过计算危险性,机器可为任何角色建立生存函数,以此判断这段时间,该角色死亡的可能性有多大。模型就房子、情人、婚姻、主/次要角色、性别等特征进行分析。
神经网络
除了贝叶斯生存分析,另一种方法是训练神经网络预测某角色某年的死亡率。这种方法也会建立生存函数,但神经网络的型态会比贝叶斯模型更复杂。神经网络会包含更多“意外”死亡,而贝叶斯模型则认为这些死亡是随机的异常值。
这个模型使用 Python 的 Keras 框架。基本上,最简单的神经网络架构之一就是使用前馈技术。这意味着输入一任意实值维数字量,然后透过所谓“隐藏层”处理,最终汇出也是一个数字向量。
此外,神经网络线由许多参数组成,这些参数在训练过程会调整。训练是自动改变参数的步骤,使网络汇出尽可能接近给予的输入─汇出关系。
如何将与角色相关的复杂资讯转换为向量,是目前要考虑的重中之重。有些资讯是纯量,例如角色介绍在维基百科的排名前后。其他资讯,例如角色出现的情节,是一组有预定义的值。
因此,我们可建立维度与集数相同的向量,如果角色出现在相应集数,则将维度设为 1.0,否则设定为 0.0。这样不同种类的资讯可转为向量,而这些向量会相加。最后,文字资料提供 1,561 个输入维度,电视剧资料提供 411 个输入维度。
一般来说,变老仍是影响角色死亡的最重要因素,毕竟年龄越大,经历的危险就越多。这就是神经网络也要采纳分析角色、年龄的原因。
因为神经网络汇出只是决定“生存百分比”的一个维度,所以为每个角色建立 90 个不同输入向量有可能达成(每一年对应一个输入向量)。如果角色到设定的年龄仍然存活,神经网络将预测输入向量为 1.0,否则为 0.0。
此外,这个神经系统还允许预测 PLOD 随时间变化:修改角色的输入年龄很容易,且修改会与 PLOD 的变化直接相关。系统预测的角色死亡率仅针对《权力游戏》第八季。
为了总结这点,来看看关于预测和神经网络的统计资料。
首先,《冰与火之歌》共有 484 个可用角色,其中 188 个用于训练(即死亡),其余 296 个存活角色用于预测。最后,小说资料的训练准确率达 88.75%,最终验证准确率为 89.92%。
同样,《权力游戏》撷取 146 个可用角色,82 个用于训练,64 个用于预测。影剧资料最终训练准确率为 79.64%,最终验证准确率为 85.69%。
(本文由 雷锋网 授权转载;首图来源:HBO)