Dota2冠军OG如何被AI碾压？OpenAI累积三年的完整论文终于放出

评论 2024-10-16

在人工智能OpenAI 5面前，OG不堪一击。五个人组成的队伍之前就被0:2毫无悬念的击败了。两回合加起来，OG只推掉了两座外塔。

然而，这还不是人工智能的顶峰。

现在OpenAI 训练了一个全新的AI，名为Rerun。面对碾压OG的OpenAI Five，Rerun的胜率达到了……呃……98%。

得知这一消息后，一位推特用户发布了一张明志的照片。

主要靠自学，就能在Dota 2这样复杂的游戏中称霸，人工智能是怎么做到的？今天，这个问题的答案揭晓了。

没错，OpenAI不仅发布了Rerun，还通过论文正式公布了其对Dota2项目三年多的研究。

在本文中，OpenAI对整个系统的原理、架构、计算量、参数等诸多方面进行了阐述。 OpenAI指出，通过增加批量大小和总训练时间，扩大了计算规模，从而表明当今的强化学习技术可以在复杂的电子竞技游戏中达到超越人类的水平。

这些研究可以进一步应用于两个对手之间的各种连续零和博弈。

（可能是读完之后）OG 团队发推文：“哇！这篇论文看起来棒极了！”

这时，有网友深情地感叹：哇！ OG团队夸一篇论文好看？再见.

这篇论文到底说了什么？

我们总结了几个要点。

要点一：Dota2比下围棋更复杂

与棋类游戏相比，电子竞技游戏更为复杂。

解决这个问题的关键是将现有的强化学习系统扩展到前所未有的水平，这需要数千个GPU 和数月的时间。 OpenAI 为此构建了一个分布式训练系统。

培训的一大挑战是环境和代码不断变化。为了避免每次更改后都从头开始，OpenAI 开发了一套可以在不损失性能的情况下恢复训练的工具。这套工具叫做：手术。

每场Dota 2 游戏持续约45 分钟，每秒生成30 帧游戏画面。 OpenAI Five 每4 帧执行一次动作。国际象棋大约有80 步，围棋大约有150 步。相比之下，玩一场Dota2 游戏，AI 需要“下”大约20,000 步棋。

而且由于战争迷雾的原因，Dota 2中的战斗双方只能看到比赛整体的一部分，其他部分的信息都被隐藏了。

与下围棋的AlphaGo相比，下Dota2的AI系统的batch size大50-150倍，模型大20倍，训练时间长25倍。

要点二：AI如何学会打Dota2

人类玩Dota2，通过键盘和鼠标做出实时决策。刚才提到，OpenAI Five每4帧做一次动作，称为时间步。在每个时间步长中，OpenAI 将接收血量和位置等数据。

人类和OpenAI Five 以完全不同的方式接收相同的信息。

当人工智能系统发出动作指令时，大概可以这样想。

Dota2冠军OG是如何被AI碾压的？ OpenAI积累三年的完整论文终于发布

AI的背后是一组神经网络。策略（）定义为从观察数据到动作概率分布的函数，是一个拥有1.59 亿个参数的RNN 神经网络。该网络主要由单层、4096 个单元的LSTM 组成。

结构如下图所示：

LSTM贡献了这个模型中84%的参数。

玩家使用扩展版本的近端策略优化（PPO）方法进行训练，这也是OpenAI 当前默认的强化学习训练方法。这些代理的目标是最大化未来奖励的指数衰减总和。

在训练策略的过程中，OpenAI Five没有使用人类游戏数据，而是使用自我游戏。类似的训练方法也适用于围棋和国际象棋等问题。

其中，战斗中80%的对手是使用最新参数的分身，而20%的对手是使用旧参数的分身。每10 次迭代后，新训练的化身将被标记为旧计时器。如果当前正在训练的AI击败了新秀或老将，系统会根据学习率更新参数。

根据OpenAI CTO此前的说法，OpenAI五人在击败OG之前已经练习了相当于45000年Dota的时间。 AI每天的训练量相当于人类180年的游戏时间。

要点三：计算量和超参数

训练如此复杂的AI系统肯定会消耗大量资源。

OpenAI 估算用于优化的GPU 消耗。最终的结论是，OpenAI Five的GPU计算消耗约为77050~82050 PFlops/s·days，而今天新提到的更强的Rerun在随后两个月的训练中，GPU计算消耗约为15050 PFlops/s·days。 5 PFlops/s·天。

再次强调，OpenAI公布的只是用于优化的计算量，这只是训练中所有开销的一小部分，约占30%。

此前，OpenAI还透露，OpenAI Five的日常训练需要256个P100 GPU和128,000个CPU核心。

至于整个神经网络的超参数，OpenAI在论文中表示，在训练Rerun时，根据经验进一步简化了超参数。最终，他们只改变了四个关键的超参数：

• 学习率• 熵罚系数• 团队精神• GAE 时间范围

当然，OpenAI也表示这些超参数还有进一步优化的空间。

要点四：并不全是自学

最后，还有一点需要强调。

OpenAI在论文中明确指出，在学习Dota2的过程中，AI系统并不完全依靠强化学习进行自我学习，还会使用一些人类知识。这与后来的AlphaGo Zero不同。

有些游戏机制是脚本程序。比如英雄购买装备和学习技能的顺序、信使的控制等。OpenAI在论文中表示，使用这些脚本有一些历史原因，以及成本和时间方面的考虑。不过论文也指出，这些最终都可以通过自学来完成。

论文全文

在这篇名为Dota 2 with Large Scale Deep Reinforcement Learning 的论文中，OpenAI 公布了更多细节。如果您有兴趣，请访问以下门户：

https://cdn.openai.com/dota-2.pdf

对战回顾

Dota2冠军OG是如何被AI碾压的？ OpenAI积累三年的完整论文终于发布

最后我们来回顾一下OpenAI五连胜OG的整场比赛。

第一局

AI（半径）：火枪、飞机、冰女、死亡先知、斯文

人类（夜魇）：特立独行者、巫医、毒龙、隐刺、暗影恶魔

选择阵容后，OpenAI Five认为其胜率达到67.6%。

比赛一开始，OpenAI五人就取得了第一滴血，人类大军迅速击杀了AI冰女。此后，双方前期在人数上旗鼓相当。 AI一直保持着整体经济领先，但最富有的英雄却一直是人类大哥影魔。

这也能看出双方策略上的明显区别：OG是3核心+2辅助的传统人类打法，而AI的五英雄经济分配则相对均匀，更多的是“大锅饭” 。

经过几次激烈的推进和团战，比赛进行到了19分钟左右，AI对自身胜率的预测超过了90%。自信的AI一举征服了人类的制高点。

随后OG选择分道推进。几位评论人士猜测，这是为了尽可能分散AI，防止它们成群前进，但并没有持续多久。

然而坚持到了38分钟，人类这边的小牛才刚刚买了命，AI的最后一波总攻已经推开了人类的基地。

OpenAI Five 赢得了第一场比赛。现场也响起了掌声。

在这款游戏中，AI表现出了一个奇怪的想法：外出时选择两种大药，后续的装备更倾向于购买物资而不是提升自身属性。

另外，我们前面提到的“大锅”政策以及游戏前期频繁购买作品，与人类职业玩家的习惯有很大不同。

第二局

AI（半径）：冰女、飞机、斯文、巫医、毒龙

人类（夜魇）：火枪手、特立独行者、死亡先知、小鱼人、瑞安

选择英雄后，AI对自身胜率的预测为60.8%，略低于上一场比赛的阵容。

比赛前两分钟，双方在平和的气氛中领先。然而出乎意料的是，人类中单托普森很快就送出了一血。

随后，人类代表以惊人的速度被击败。

5分钟时，AI信心大幅提升，预测胜率80%； 7分钟，AI已经推掉了上路一塔； 10分钟，AI已经领先人类4000金币，又推掉了两座塔，而且……他给自己预估了95%的胜率。

11分钟，AI已经到达OG的高地。

仅仅21分钟，OG的基地就被推开，OpenAI五人轻松拿下第二局。直到比赛结束，OG的击杀数依然是个位数，被AI打到了46:6。

虽然这一局获胜极其轻松，但在比赛过程中还是可以明显看出AI在细节上存在一些不足。例如，面对在复杂树林中徘徊的人类，人工智能就无能为力。在今天的比赛中，Ceb绕过树林救了他的命。

最后祝大家周末愉快。

- 超过-

用户评论

终究会走-

哎呀，看完这篇论文，真是感叹AI的强大啊！Dota2冠军OG都被碾压了，看来AI真的越来越厉害了。

有5位网友表示赞同！

墨城烟柳

确实，AI的发展速度让人惊叹。不过，这也意味着电竞选手们得不断进步，不然真的要被淘汰了。

有8位网友表示赞同！

念旧是个瘾。

三年积累的论文终于发布了，我一定要仔细看看，看看AI到底是如何做到碾压OG的。

有8位网友表示赞同！

如你所愿

AI在Dota2上的表现太惊艳了，感觉未来电竞比赛会越来越精彩。

有7位网友表示赞同！

艺菲

OMG，AI碾压OG的新闻看了好几遍，还是觉得不可思议。AI的发展速度太快了。

有19位网友表示赞同！

弃我者亡

这篇论文发布，我终于明白AI是如何做到碾压OG的。Dota2选手们得加油了，不然真的要落后了。

有15位网友表示赞同！

龙吟凤

三年时间，OpenAI的论文终于发布了，我迫不及待想要了解AI在Dota2上的突破。

有12位网友表示赞同！

汐颜兮梦ヘ

AI的进步让人惊叹，但是也让人担心。电竞选手们的未来会不会被AI取代呢？

有15位网友表示赞同！

君临臣

Dota2冠军OG被AI碾压，这让我对AI在电竞领域的应用有了更深的认识。

有14位网友表示赞同！

墨染年华

看完这篇论文，我对AI在Dota2上的表现有了新的认识。原来AI的算法这么强大。

有15位网友表示赞同！

肆忌

AI在Dota2上的表现确实让人印象深刻，不过我还是更喜欢看人类选手的比赛。

有8位网友表示赞同！

我就是这样一个人

这篇论文让我对AI有了新的认识，没想到AI在Dota2上的表现这么出色。

有13位网友表示赞同！

笑傲苍穹

Dota2冠军OG被AI碾压，看来AI的发展已经到了一个新阶段。

有18位网友表示赞同！

予之欢颜

OpenAI的论文发布，让我对AI在电竞领域的应用有了更深的思考。

有11位网友表示赞同！

爱你的小笨蛋

AI在Dota2上的表现确实让人印象深刻，不过我还是更喜欢看到人类选手的拼搏。

有13位网友表示赞同！

仅有的余温

这篇论文让我对AI的发展有了新的认识，AI的进步速度太快了。

有12位网友表示赞同！

心安i

Dota2冠军OG被AI碾压的新闻让我对AI的发展充满了期待。

有14位网友表示赞同！

■孤独像过不去的桥≈

AI在Dota2上的表现太惊艳了，没想到AI的算法已经这么成熟。

有19位网友表示赞同！

莫飞霜

这篇论文让我对AI在电竞领域的应用有了更深的认识，未来电竞比赛会越来越精彩。

有19位网友表示赞同！

标签：

Dota2冠军OG如何被AI碾压？OpenAI累积三年的完整论文终于放出

要点一：Dota2比下围棋更复杂

要点二：AI如何学会打Dota2

要点三：计算量和超参数

要点四：并不全是自学

论文全文

对战回顾

第一局

第二局

用户评论

龙珠超单机游戏下载v6.1.5-龙珠单机版游戏

龙血武魂下载v1.0.5-龙血武魂88读书网

龙魂武神下载-龙魂武尊下载

激战奇轮2中文版-激战奇轮2下载无限钻石

魔卡连萌在线下载，礼包激活码领取-魔卡小技巧

三国大陆在线下载，礼包激活码领取-三国志大陆

虎虎生财赚钱版-虎虎生威百度百科

红色冲突在线下载，礼包激活码领取-红色的冲击中文版

白鲸乐园正版-白鲸乐园正版下载官网

奇葩吃鸡派对单机最新版-奇葩吃鸡派对2021破解版

凯瑟的帽子店下载-凯瑟的照片

布阵西游在线下载，礼包激活码领取-布阵游戏

Sticky Ball下载-stickmanbasketball下载

农业之谷3D下载安装-农谷之乡

超级马里奥3d世界下载-超级马里奥3d世界版本

免费2012qq下载「V.2354」-2013qq免费下载安装

和平精英国际服免费官方正版下载安装-和平精英国际服下载2021最新版

战争时刻在线下载，礼包激活码领取

古筝模拟器免费版下载-古筝模拟器下载安卓

生存战争2.3突变模组中文版下载-生存战争mod所有模组2.2.130

凯瑟的帽子店下载-凯瑟的照片

布阵西游在线下载，礼包激活码领取-布阵游戏

Sticky Ball下载-stickmanbasketball下载

农业之谷3D下载安装-农谷之乡

超级马里奥3d世界下载-超级马里奥3d世界版本

免费2012qq下载「V.2354」-2013qq免费下载安装

和平精英国际服免费官方正版下载安装-和平精英国际服下载2021最新版

战争时刻在线下载，礼包激活码领取

古筝模拟器免费版下载-古筝模拟器下载安卓

生存战争2.3突变模组中文版下载-生存战争mod所有模组2.2.130

要点一：Dota2比下围棋更复杂

要点二：AI如何学会打Dota2

要点三：计算量和超参数

要点四：并不全是自学

论文全文

对战回顾

第一局

第二局

用户评论

原神天理尝蛆服务器3.7792次下载

娄底放炮罚计算器打鸟免费版705次下载

山海吞噬进化422次下载

水枪洗车Car947次下载

和平精英国际服免费下载官方正版984次下载

正版刺激战场国际服手机版下载446次下载

2023PUBG493次下载

2023地铁逃生手机版下载781次下载