巴中市万纵网络科技有限公司
首页 | 联系方式 | 加入收藏 | 设为首页 | 手机站

产品目录

联系方式

联系人:业务部
电话: 00126-83979
邮箱:service@q235cwfgg.com

当前位置:首页 >> 产品展示 >> 默认分类 >> 正文

人类一败涂地!OpenAI血虐Dota2半职业战队

详细信息:

[图片]

文/郭一璞 栗子 夏乙

来源:量子位(QbitAI)

北京时间早上 5 点 58 分,人类半职业 Dota 高手队对战 OpenAI Five 第二局接近尾声,被称为“大老师”的 dota plus 大数据对人类战队宣判了死刑。

它说,AI 胜率 100%。

6 点整,人类第二次打出 GG(good game,投降),AI 宣告胜利。

这是 OpenAI Five 首次在 5v5 战局中,对上职业选手。今天的人类代表队由职业和半职业选手组成,在旧金山和 AI 展开三局两胜的厮杀。

一方是“从未输给过人类职业选手”的 OpenAI Five,另一边,人类战队中的现役职业选手 MoonMeander 也在 Twitter 上高调宣布“从未输给过 bot,这次也不会”。

[图片]

事实证明,这个 Flag 立得太高。

AI 以碾压之势,连胜两局。加上正赛前,AI 已经碾压了两局现场观众玩家,整个对战 AI 的过程中,人类阵营可谓一败涂地。

最后一局,改了规则。AI 一方的英雄,由现场观众共同选出,最后得到一个奇葩阵容。人类玩家靠这种方式,勉强扳回一局。但这也无法改变 AI 大获全胜的事实。

总有人把 OpenAI 的胜利,归功于已经退出董事会的 Elon Musk。对于今天的胜利,钢铁侠怎么说?我们最后揭晓,先说正事儿。

4 局被碾压,1 局挽尊

正式比赛之前先进行了两场 OpenAI Five 对观众的娱乐赛,毫无悬念,均以人类失败告终,AI 拆塔如入无人之境。其中第二场比赛9:28 分人类上路高地塔告破,不到 14 分钟,观众队就输给了 AI。人类先折两阵。

不过,后面职业选手的比赛也没有强多少。

[图片]

正赛第一局

由于只有 18 个英雄,正式的比赛虽然有 BP,但大家只是象征性的 BAN 了一些 18 个英雄之外的英雄。夜魇的人类选了小牛、瘟疫法师、冰女、剃刀和影魔,天辉的 AI 选了巫妖、飞机、火枪、DP 和莱恩。

[图片]

一开始,merlini 的剃刀越塔送了一血,AI 在各路拿下 5 个人头后,人类终于拿下一个,此时 AI 胜率 94%。一波团战后,人头变为 AI 9:3,胜率给到了 AI 胜 99%,象征性的给人类留下了1% 的尊严。

之后,AI 开始了疯狂的推塔进程,四一分带,巫妖一人推掉上路一塔,其余 4 人灭掉人类对手,推掉下路一塔。随后,野区爆发一波团战,AI 前后夹击,将被包围在中间的三人统统灭掉,旁边的一人也残血逃命不及被补刀,此时已进行到 13 分钟,人头数 22:4,AI 经济领先 5k。

1 分钟后,下路 2 塔告破。随后,人类终于认真配合,四人包围抓了一个巫妖,然而就在此时,AI 队其余 4 人推掉了上路高地塔,人类赶回家救塔,blitz 的影魔完成本场人类唯一亮点操作,完成双杀。然而无济于事,AI 已经开始酝酿最后一波团战了,他们冲上中路高地塔前,越过人类小牛的阻碍,越塔拿下 2 个人头后,淡定拆塔。

[图片]

最终,人类 gg,以8:30 惨败。

这一场仿佛人类完全没有配合,仿佛被割韭菜一样推掉。惹得直播间弹幕惊叹:这哪是排名 1000 名左右的高手,简直像新手一样被虐。

正赛第二局

这次人类在天辉一方,选择了巫医、影魔、小牛、死亡先知(DP)和隐刺,夜魇 AI 选择的是巫妖、火枪、莱恩、冰女和飞机。

[图片]

第二局的人类似乎稍微有出息了一点,拿下一血,人头属于影魔,甚至还推掉了一个塔。AI 的胜率成功被坚强抵抗的人类压低了……1 个百分点,降到了 98%,甚至开始时,人类经济都领先了 1k。

AI 被人类拖到了 20 分钟才开始推中路高地塔。然而这点“优势”没有持续多久,AI 如拆迁队一般,推完中路后迅速去推下路,紧接着赶去了上路,开局 25 分钟,上路塔被拆,人类本局终于没有机会了。

三局两胜下,也意味着这场比赛人类还是输给了 AI。而且人类和 AI 之间的差距,实在是太大、太明显。

[图片]

正赛第三局

既然 AI 已获两胜,第三场就变成了娱乐局,由人类观众来“刁难”OpenAI Five,为他们选出 5 个英雄。人类选手 MoonMeander 为了一雪前耻,号召大家选 5 个脆皮来恶心一下它们。

[图片]

所以,人类观众们给 AI 选出了小鱼、斯温、斧王、隐刺和痛苦女王这样的阵容,而人类则拿到了绝对优势的死灵法、莱恩、飞机、DP 和巫妖。

这套阵容胜率怎么样?

没开打之前,预测胜率为 2.9%……

[图片]

一开场,5 个脆皮的劣势阵容果然很有用,至少在经济上人类狠狠地压过了 AI。

[图片]
绿色为人类的经济

可怜的 AI 斧王辛苦赚钱养家,不但没有突破经济限制,甚至还从全场第三掉到了全场第四。

开始的十几分钟里,AI 还在努力的拿人头,取得了比分上的暂时领先。不过很快,被人类选了 5 脆皮阵容的 AI 自知团战打不过,只好选择猥琐带线,悄悄偷塔。

比赛进行到 14 分钟,人类终于追评了比分,14:14 平;2 分钟后,人类在草丛堵死了一只小鱼,终于获得了优势比分 16:15,AI 胜率跌到了8%。

22 分钟,人类 27:16,AI 终于被大老师判了死刑,胜率只有1%,而经济也被人类压了 8k。

绝望的 AI 拼死一搏,无脑带线,以 1 人换 1 塔的精神,义无反顾冲上人类的塔下,被人类狠狠的包围,群殴一顿。

29 分钟,人类终于开始推高地;5 分钟后,人类推掉中路高地塔,AI 还不放弃,悄咪咪搏命偷塔(未果);2 分钟后,人类终于推掉 AI 的基地,以绝对压制的阵容取得了唯一的一场胜利。

[图片]

整个比赛过程中,不断有围观群众质疑着人类选手的段位。

这支被 AI 虐杀的人类队伍,按照 OpenAI 的描述是 99.95% 以上。如果看 MMR(匹配分,约等于天梯积分),都在 6500 以上,天梯排名最低的也只有 1000 名出头。

他们是:

  • William “Blitz“ Lee:Dota2 解说,前职业选手、教练。

  • Austin “Capitalist“ Walsh,简称 Cap:Dota2 解说,曾经与 Gamer University、Vegetables Esports Club 等战队打过半职业比赛。

  • Ioannis “Fogged“ Loucas:曾经是职业战队 Steak Gaming、半职业战队 Vegetables Esports Club 选手。

  • Ben “Merlini“ Wu:前职业选手,退休解说。

  • David “MoonMeander“ Tan,加拿大战队 compLexity Gaming 的职业选手。MoonMeander 是本次人类战队中的唯一一名现役职业选手,也是 OpenAI Five 对战的第一个职业选手。

[图片]

AI 一日 200 万场比赛训练

OpenAI 一路赢得轻松,现场观众的呼声几乎全是送给 AI 的。

看直播的小伙伴里,则有人对 AI 全程摩擦人类的赢法表示失望。

[图片]

“怀疑”OpenAI 请了群演的,不止一人。

[图片]

可被按在地上摩擦的人类,也很绝望啊。

来自人类战队的 MoonMeanderated 发推说,AI 一天能打 200 万场比赛呢。

人肉训练的强度,真的没有那么大。

[图片]

与此遥相呼应,中国网友的表达,就更直接一点。

[图片]

大意可能是,AI 学了 180 年,每天 200 万把,比人类厉害不意外,比人类菜就是真菜了。

另外,关于赛前 OpenAI 宣布把智能体的反应速度,降到与人类接近的 200 毫秒,这件事……

[图片]

看了比赛的观众,似乎并不买账,强烈质疑官方宣传的反应速度有假。

[图片]

Reddit 也这样说。

对于同胞的战败,人类心有不甘。

也有人担心,DotA 终究会是 AI 的天下。

[图片]

好在第三局赢了,虽说有些“小人得志”。刷弹幕的小伙伴们已如愿,可以洗洗睡了。

AI 挑战职业选手靠什么?

目前已知的情报是这样的:

OpenAI 训练 Dota 选手的方式,是让 AI 从随机状态开始,依靠自我对局来优化。

这支 AI 队伍长这样:

[图片]

简单来说,每个选手,也就是每个智能体(agent),都是一个包含 1024 个节点的单层 LSTM(长短时记忆网络),能够通过V社(Valve)的 Bot API 观察当前游戏状态,控制英雄去移动、攻击、施放技能、使用道具。

智能体能够观察到的信息和人类差不多,包括自身、队友和敌人的状况,比如位置、血量、攻击力、护甲、携带物品、能力等等。

[图片]

[图片]

这些信息,对于智能体来说是一个包含 20000 数值的列表,而它判断之后发出的行动指令,是 8 个值的列表。

选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是 OpenAI 现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

去年训练 1v1 AI 的时候,OpenAI 针对卡兵的操作专门设置了奖励,在 5v5 版本中取消了。不过,5v5 模型还是借助其他奖励信号学会了卡兵。

AI 选手们在训练中饭量惊人,承载它们需要 256 块 P100 GPU 和 12.8 万个 CPU 核心。

[图片]

上面的 5v5 版本与 1v1 版本对比,有一个令人欣慰的结果:OpenAI Five 需要的 CPU 和 GPU 计算力,与去年击败 Dendi 的 1v1 版相比,并没有翻到 5 倍。

OpenAI 说,AI 每天的训练量,都相当于人类打 180 年游戏。来自人类战队的 MoonMeanderated 说,AI 们每天要打 200 万局 Dota。

5 个智能体训练出来,它们之间又是怎样配合的呢?总不能像我们人类开黑一样互相喊话吧?

答案是,他们之间没有那种人类可以理解的沟通渠道,而是由一个“团队精神”超参数来统一控制。这个超参数的范围在 0 到 1 之间,决定了选手对与自身奖励函数和队友平均奖励函数的关注程度分配。

OpenAI 操作也一样是通过 bot API,能够移动位置、攻击、使用道具,根据获胜、血量和补刀情况得到奖?