DeepMind星际争霸机器人领先人类多少?答:191年
这意味着人工智能采取的游戏策略并不是随机产生的,它也也不需要学习像如何移动单元这样的基础知识。这就像一个人类玩家坐在一个老手玩家后面,看着他玩了大约50万次游戏。
今年早些时候,DeepMind首次展示了AlphaStar学习和改进人类微观战略的能力。在一场比赛中,AlphaStar将自己的单位分成小部分,在地图上多个地方包围对手,这一行动需要高度的精准性和协调性。
游戏解说员鹿特丹(RotterdaM)说:“如果我和人类玩家对弈,他们不会把(单位)缩小到这么小。”
为了让AlphaStar在游戏中掌控三种可玩的种族,DeepMind为人工智能系统创建了一个“联盟”,让它与自己竞争。AlphaStar玩了1.2亿场游戏,通过一个复杂的匹配系统,每个种族中目前最强大的机器人可以与“开拓者”机器人进行匹配,后者试图在AlphaStar喜欢的主导策略中找出漏洞。
通过这种方式,这项研究利用了最近流行的机器学习技巧——生成对抗网络(GANs)。其中一个网络试图生成一段数据,比如一幅图像,而另一个则试图判断这段数据是真实的还是人工智能生成的。这两个网络来回“争论”,直到生成的数据非常接近真实相机拍摄的图像。
《星际争霸2》之所以如此难以掌握,其中一个原因就是它是一款信息不不对称的游戏。这款游戏与围棋或国际象棋不同,玩家只能看到他们的单位探索过的部分地图,他们不知道对手在使用什么策略。在这方面,它很像扑克。
研究人员说,在将这项技术应用到现实中的过程中,还存在一个问题,那就是训练AlphaStar需要多少数据。除了人类提供的数据,AlphaStar还需要与自己对战200年,才能达到目前的水平。鉴于《星际争霸2》在2010年发布,人类与机器之间的竞争存在191年的劣势。
译者:Jane
本文来自: 36氪