【热点资讯】人工智能再下一城!碾压Dota2准职业玩家的OpenAI Five究竟是何方神圣?
DOTA AI在去年的TI7首度亮相赛场,就技惊四座。在TI7正赛的期间,V社举办了一场别开生面solo表演赛——人机SOLO大战。
人类方是TI活化石,世界顶尖的中单选手dendi,而他的对手是一个U 盘,里面装着由OpenAI 开发的Dota AI。
OpenAI 是由特斯拉CEO埃隆·马斯克成立的一家非营利公司,旨在开发更安全的AI技术,预防人工智能带来的危害。目前,OpenAI 的全职员工已经超过50 人。
在赛前的宣传片里,OpenAI 开发的Dota AI已经打败了现役的Arteezy、SumaiL等世界冠军。
而让人大跌眼镜的是,比赛开始没10分钟,曾经的世界最顶尖的solo选手dendi就打出了GG(goodgame,投降),败下阵来,而且是被AI打的毫无还手之力。
最令人窒息的是AI的进攻性非常强,打法侵略性十足,一旦有了一点点优势就会开始压制。
根据OpenAI官方给出的数据,AI每分钟的操作次数(APM)仅仅是人类的平均水准,换言之,AI的每次出手收益都比Dendi更高,无效操作更少。
也就是说,AI不会有任何无效操作,这样在对阵过程中,AI英雄消耗和被消耗也会大大减少,然后AI将有更多的经济转化为属性装,而玩家将消耗大量经济在补给和回复上。
这样可怕AI,人类没有任何机会,完全碾压!
而让人无法想象的是,AI不需要任何训练数据,完完全全从零开始,整个学习过程随机开始,并且通过和自己对抗进行学习。从工作人员的口中得知,AI一开始也是出现许多游戏里的“愚蠢”行为,但很快就通过“自主”学习,学会了人类玩家们的操作和技巧,到现在击败世界冠军一共也就花了仅仅两周的时间,成长速度快的吓人。
OpenAI的团队在赛后表示,这一次人机solo只是一个初步的尝试,将在DOTA2 TI8上上演5V5的人机对战。
这不,就在一周前的8月6号,OpenAI Five开始了与人类正式的二番战,5v5人机对战,由前职业选手组成的战队对战OpenAI Five。
北京时间8月6日早上5点58分,人类半职业Dota高手队对战OpenAI Five第二局接近尾声,被称为“大老师”的DotaPlus大数据对人类战队宣判了死刑。
它说,AI战队的胜率是100%。
6点整,人类第二次打出GG,AI宣告胜利。
这是OpenAI Five首次在5v5战局中,对上职业选手。今天的人类代表队由职业和半职业选手组成,在旧金山和AI展开三局两胜的厮杀。
结果似乎并不出人预料,三局两胜的赛制,OpenAI Five“荣耀2:1”战胜了人类战队。
AI究竟是通过什么样的方式让人类玩家一败涂地的呢?
目前可以得知的情况是这样:OpenAI训练Dota的方式,是让AI从随机状态开始,依靠自我对局来优化。
(以下信息来自OpenAI Five官网)
通过自我对抗学习,OpenAI Five 每天相当于玩180年的游戏。训练上,它使用256 块GPU、12万8000 个CPU核心使用近端策略优化(ProximalPolicy Optimization)方法进行训练,这是在去年建立的solo Dota2系统上的扩增。OpenAI为每个英雄使用单独的一个LSTM,模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步,也能够产生大规模但也可接受的长期规划。
Dota2是一个实时的5 v 5策略游戏,每个玩家控制一个英雄。而玩Dota 的 AI 需要掌握以下技能:
长线策略。Dota 游戏平均每秒 30 帧,一场时常 45 分钟,大概 8 万 tick。大部分操作(例如操纵英雄移动)都有单独的小影响,但一些个体行为可能会影响到游戏战略,例如 TP 回家。此外,还有一些策略可能会终结整场游戏。OpenAI Five 每 4 帧观察一次,产生了 2 万个决策。相比之下,国际象棋一般在 40 步之前就结束了,围棋大概 150 步,但这些游戏每一步都很有策略性。
局部可观测状态。己方单位和建筑的视野都有限。地图的其他部分是没有视野的,可能藏有敌人和敌方策略。高玩通常需要基于不完整数据做推理,以及建模敌方意图。而国际象棋和围棋都是完全信息博弈。
高维、持续的行为空间。在 Dota 中,每个英雄能采取数十种行为,而且许多行为要么面向敌方单位,要么点地移动位置。我们把这个空间离散到每个英雄 17 万种可能的操作(不是每 tick 都有效,例如在技能冷却时放技能就是无效操作);不计算连续部分,每 tick 平均 1000 个可能有效行为。国际象棋的行为数量大概是 35,围棋 250。
高维、连续的观察空间。Dota 是在一张包含 10 个英雄、20 几个塔、数十个 NPC 单位的地图上操作的游戏,此外还有神符、树、眼卫等。通过 Valve(Dota 2 的运营公司)的 Bot API,我们的模型把 Dota 游戏视为 2 万个状态,也就代表人类在游戏中可获取到的所有信息。国际象棋代表大概 70 个枚举值(8x8 的棋盘,6 类棋子和较小的历史信息)。围棋大概有 400 个枚举值(19x19 的棋盘,黑白 2 子,加上 Ko)。
Dota规则也非常复杂,这类游戏开发了十几年,成百上千的代码行实现游戏逻辑。而且游戏每两周更新一次,环境语义一直在变。
所以OpenAI Five有着一套自己的学习算法。
OpenAI Five的系统使用一个高度扩展版本的近端策略优化(ProximalPolicy Optimization)算法进行学习。OpenAI Five 和之前的1v1机器人都是通过自我对抗进行学习的。他们从随机参数开始,并不从人类玩家的方法中进行搜索或者自举。
前后两个系统在效率上的提升是巨大的
AI选手们在训练中饭量惊人,承载它们需要256块P100GPU和12.8万个CPU核心。
DOTA职业选手每天的训练强度是12个小时,而DOTA AI的训练强度则是每天相当于180年,如此快速学习和庞大训练强度,能够击败半职业战队确实不难想象。
TI7上,OpenAI闪亮登场,赢下了solo赛,引起了不小的关注,不少队伍和选手都想要和这些聪明的机器bot过招。
就在两周前,OpenAI Five在5v5的比赛中以2-1击败了前职业选手组成的临时战队。看起来这支队伍已经有了参加TI的能力,V社想要OpenAI来温哥华参加本届TI。目前他们正在调整日程表,争取给OpenAI一个和顶尖职业选手过招的机会。
在经过一年的开发后,相信今年的OpenAI归来后肯定会变得更强,究竟职业战队能否打得过人工智能呢,也是让人拭目以待。
宽泛科技专注为人工智能、影视后期、VR/AR/MR、视觉计算、虚拟化云计算、商务应用等行业客户提供基于深度学习、人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等硬件解决方案。
如有需求欢迎邮件至 hezuo@cloudhin.com