Jan 16, 2020

【热点资讯】人工智能再下一城!碾压Dota2准职业玩家的OpenAI Five究竟是何方神圣?

如果你是一位游戏玩家那么对DOTA2这款游戏你一定不会陌生,今年的Ti8已经在温哥华华丽丽的开幕了,小组赛激战正酣。Ti8正值2018偶数年,不知道西恩刀塔的魔咒能不能再次上演呢?




人机对抗一番战


DOTA AI在去年的TI7首度亮相赛场,就技惊四座。在TI7正赛的期间,V社举办了一场别开生面solo表演赛——人机SOLO大战。


人类方是TI活化石,世界顶尖的中单选手dendi,而他的对手是一个U 盘,里面装着由OpenAI 开发的Dota AI。



OpenAI 是由特斯拉CEO埃隆·马斯克成立的一家非营利公司,旨在开发更安全的AI技术,预防人工智能带来的危害。目前,OpenAI 的全职员工已经超过50 人。


在赛前的宣传片里,OpenAI 开发的Dota AI已经打败了现役的Arteezy、SumaiL等世界冠军


而让人大跌眼镜的是,比赛开始没10分钟,曾经的世界最顶尖的solo选手dendi就打出了GG(goodgame,投降),败下阵来,而且是被AI打的毫无还手之力。



最令人窒息的是AI的进攻性非常强,打法侵略性十足,一旦有了一点点优势就会开始压制。


根据OpenAI官方给出的数据,AI每分钟的操作次数(APM)仅仅是人类的平均水准,换言之,AI的每次出手收益都比Dendi更高,无效操作更少。


也就是说,AI不会有任何无效操作,这样在对阵过程中,AI英雄消耗和被消耗也会大大减少,然后AI将有更多的经济转化为属性装,而玩家将消耗大量经济在补给和回复上。


这样可怕AI,人类没有任何机会,完全碾压!


而让人无法想象的是,AI不需要任何训练数据,完完全全从零开始,整个学习过程随机开始,并且通过和自己对抗进行学习。从工作人员的口中得知,AI一开始也是出现许多游戏里的“愚蠢”行为,但很快就通过“自主”学习,学会了人类玩家们的操作和技巧,到现在击败世界冠军一共也就花了仅仅两周的时间,成长速度快的吓人。



OpenAI的团队在赛后表示,这一次人机solo只是一个初步的尝试,将在DOTA2 TI8上上演5V5的人机对战。


这不,就在一周前的8月6号,OpenAI Five开始了与人类正式的二番战,5v5人机对战,由前职业选手组成的战队对战OpenAI Five。


二番战罢,人类果然一败涂地



北京时间8月6日早上5点58分,人类半职业Dota高手队对战OpenAI Five第二局接近尾声,被称为“大老师”的DotaPlus大数据对人类战队宣判了死刑。


它说,AI战队的胜率是100%


6点整,人类第二次打出GG,AI宣告胜利。




这是OpenAI Five首次在5v5战局中,对上职业选手。今天的人类代表队由职业和半职业选手组成,在旧金山和AI展开三局两胜的厮杀。


结果似乎并不出人预料,三局两胜的赛制,OpenAI Five“荣耀2:1”战胜了人类战队。



AI究竟是通过什么样的方式让人类玩家一败涂地的呢?


目前可以得知的情况是这样:OpenAI训练Dota的方式,是让AI从随机状态开始,依靠自我对局来优化。


(以下信息来自OpenAI Five官网)

通过自我对抗学习,OpenAI Five 每天相当于玩180年的游戏。训练上,它使用256 块GPU、12万8000 个CPU核心使用近端策略优化(ProximalPolicy Optimization)方法进行训练,这是在去年建立的solo Dota2系统上的扩增。OpenAI为每个英雄使用单独的一个LSTM,模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步,也能够产生大规模但也可接受的长期规划。


Dota2是一个实时的5 v 5策略游戏,每个玩家控制一个英雄。而玩Dota 的 AI 需要掌握以下技能:


  • 长线策略。Dota 游戏平均每秒 30 帧,一场时常 45 分钟,大概 8 万 tick。大部分操作(例如操纵英雄移动)都有单独的小影响,但一些个体行为可能会影响到游戏战略,例如 TP 回家。此外,还有一些策略可能会终结整场游戏。OpenAI Five 每 4 帧观察一次,产生了 2 万个决策。相比之下,国际象棋一般在 40 步之前就结束了,围棋大概 150 步,但这些游戏每一步都很有策略性。

  • 局部可观测状态。己方单位和建筑的视野都有限。地图的其他部分是没有视野的,可能藏有敌人和敌方策略。高玩通常需要基于不完整数据做推理,以及建模敌方意图。而国际象棋和围棋都是完全信息博弈。

  • 高维、持续的行为空间。在 Dota 中,每个英雄能采取数十种行为,而且许多行为要么面向敌方单位,要么点地移动位置。我们把这个空间离散到每个英雄 17 万种可能的操作(不是每 tick 都有效,例如在技能冷却时放技能就是无效操作);不计算连续部分,每 tick 平均 1000 个可能有效行为。国际象棋的行为数量大概是 35,围棋 250。

  • 高维、连续的观察空间。Dota 是在一张包含 10 个英雄、20 几个塔、数十个 NPC 单位的地图上操作的游戏,此外还有神符、树、眼卫等。通过 Valve(Dota 2 的运营公司)的 Bot API,我们的模型把 Dota 游戏视为 2 万个状态,也就代表人类在游戏中可获取到的所有信息。国际象棋代表大概 70 个枚举值(8x8 的棋盘,6 类棋子和较小的历史信息)。围棋大概有 400 个枚举值(19x19 的棋盘,黑白 2 子,加上 Ko)。


Dota规则也非常复杂,这类游戏开发了十几年,成百上千的代码行实现游戏逻辑。而且游戏每两周更新一次,环境语义一直在变。



所以OpenAI Five有着一套自己的学习算法。


OpenAI Five的系统使用一个高度扩展版本的近端策略优化(ProximalPolicy Optimization)算法进行学习。OpenAI Five 和之前的1v1机器人都是通过自我对抗进行学习的。他们从随机参数开始,并不从人类玩家的方法中进行搜索或者自举。


前后两个系统在效率上的提升是巨大的


AI选手们在训练中饭量惊人,承载它们需要256块P100GPU和12.8万个CPU核心。


DOTA职业选手每天的训练强度是12个小时,而DOTA AI的训练强度则是每天相当于180年,如此快速学习和庞大训练强度,能够击败半职业战队确实不难想象。


三番战或将在TI8上演



TI7上,OpenAI闪亮登场,赢下了solo赛,引起了不小的关注,不少队伍和选手都想要和这些聪明的机器bot过招。


就在两周前,OpenAI Five在5v5的比赛中以2-1击败了前职业选手组成的临时战队。看起来这支队伍已经有了参加TI的能力,V社想要OpenAI来温哥华参加本届TI。目前他们正在调整日程表,争取给OpenAI一个和顶尖职业选手过招的机会。


在经过一年的开发后,相信今年的OpenAI归来后肯定会变得更强,究竟职业战队能否打得过人工智能呢,也是让人拭目以待。


宽泛科技专注为人工智能、影视后期、VR/AR/MR、视觉计算、虚拟化云计算、商务应用等行业客户提供基于深度学习、人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等硬件解决方案。


如有需求欢迎邮件至  hezuo@cloudhin.com