DeepMind现在可以在多人游戏中击败我们了杰珂
发布时间:2022-09-29 17:04:37
DeepMind现在可以在多人游戏中击败我们了
夺旗是一个由夏季营地开放空间的儿童玩的游戏,以及专业视频游戏玩家作为Quake III和Overwatch等热门游戏的一部分。
在这两种情况下,这都是一项团队运动。每一方都守卫一面旗帜,同时还计划抓住另一边的旗帜并将其带回到本垒 赢得比赛需要良好的老式团队合作,防守和攻击之间的协调平衡:
换句话说,捕获旗帜需要看起来似乎是一套非常人性化的技能。但伦敦一家人工智能实验室的研究人员表明,机器也可以掌握这款游戏,至少在虚拟世界中也是如此。
在周四发表在“科学” 杂志上的一篇论文中,研究人员报告说,他们设计了自动“代理人”,在Quake III中捕捉旗帜“游戏模式” 时表现出类似人的行为。这些特工能够与人类玩家合作或与他们一起玩,相应地调整他们的行为。
“他们可以适应具有任意技能的队友,”DeepMind的研究员Wojciech Czarnecki表示,该实验室由Google的母公司所有。
通过数千小时的游戏,代理人学会了非常特殊的技能,比如在队友即将获得旗帜的情况下向对手的本垒打。正如人类玩家所知,当对方旗帜被带到一个人的基地时,对面的基地会出现一面新旗,成熟。
DeepMind的项目是构建人工智能的广泛努力的一部分,该人工智能可以发挥极其复杂的三维视频游戏,包括Quake III,Dota 2和星际争霸II。许多研究人员认为,虚拟领域的成功最终将导致自动化系统在现实世界中具有更高的能力。
例如,这些技能可以使仓库机器人受益,因为他们分组工作以将货物从一个地方移动到另一个地方,或者帮助自动驾驶汽车在大量交通中集中导航。“游戏一直是人工智能的基准,”负责监督旧金山实验室OpenAI的类似研究的格雷格布罗克曼说。“如果你无法解决游戏,你就不能指望解决其他问题。”
直到最近,在像Quake III这样的游戏中构建一个可以匹配人类玩家的系统似乎不可能。但是在过去的几年里,DeepMind,OpenAI和其他实验室取得了重大进展,这要归功于一种称为“强化学习”的数学技术,它允许机器通过极端的反复试验来学习任务。
通过一遍又一遍地玩游戏,自动化代理可以了解哪些策略带来成功,哪些策略不成功。如果一名队员在队友即将夺旗的情况下通过向对手的主阵地移动而不断赢得更多积分,则会将这种策略添加到其诡计中。
在2016年,使用相同的基本技术,DeepMind研究人员构建了一个系统,可以在古代的国际象棋东方版Go游戏中击败世界顶级玩家。鉴于游戏的巨大复杂性,许多专家认为这将在未来十年内完成。
第一人称视频游戏呈指数级复杂化,尤其是当涉及到队友之间的协调时。DeepMind的自主经纪人通过玩大约45万轮来学习捕获旗帜,在数周的训练中统计了大约4年的游戏经验。起初,代理人惨遭失败。但他们逐渐了解了比赛的细微差别,比如何时跟踪队友,因为他们突袭了对手的主场:
自从完成这个项目以来,DeepMind的研究人员还设计了一个可以击败星际争霸II的专业玩家的系统,这是一个太空战略游戏。在OpenAI,研究人员构建了一个掌握Dota 2的系统,这个游戏就像一个捕获旗帜的加强版本。4月,由五名自治团队组成的团队击败了五名世界上最优秀的人类队员。
去年,威廉·李是一名专业的Dota 2球员兼评论员,被称为闪电战,他反对该技术的早期版本,这种技术只能与一对一进行比赛,而不是球队的一部分,他对此并不感兴趣。但是当代理人继续学习比赛并且他作为一个团队进行比赛时,他对他们的技巧感到震惊。
“我认为这台机器不可能打五对五,更不用说赢了,”他说。“我绝对被吹走了。”
令人印象深刻的是这种技术已经成为玩家之一,许多人工智能专家质疑它是否最终会转化为解决现实问题。专注于人工智能的乔治亚理工学院计算机教授马克里德尔说,DeepMind的代理商并没有真正合作。他们只是应付什么在GAM发生ê ,而不是彼此交易的消息,作为人类玩家做。
虽然结果看起来像是协作,但是代理可以实现它,因为它们可以完全理解游戏中发生的事情。
“你如何定义团队合作并不是我想要解决的问题,”负责该项目的另一位DeepMind研究员Max Jaderberg说。“但是一名经纪人将坐在对手的大本营,等待国旗出现,这只有在依靠队友时才有可能。”
像这样的游戏并不像现实世界那么复杂。“3-D环境旨在使导航变得容易,”Riedl博士说。“Quake的战略与协调很简单。”
强化学习非常适合这类游戏。在视频游戏中,很容易识别成功的指标:更多点。但在现实世界中,没有人能保持得分。研究人员必须以其他方式定义成功。
这可以完成,至少在简单的任务中完成。在OpenAI,研究人员训练了一个机器人手来操纵孩子可能的字母块。告诉你手给你看字母A,它会告诉你字母A.
在一个谷歌机器人实验室,研究人员已经证明,机器可以学习拾取随机物品,例如乒乓球和塑料香蕉,并将它们扔到几英尺外的垃圾箱里。这种技术可以帮助分类亚马逊,联邦快递和其他公司运营的大型仓库和配送中心的物品箱。今天,人类工作者处理这些任务。
正如DeepMind和OpenAI这样的实验室解决了更大的问题,他们可能开始需要大量的计算能力。由于OpenAI的系统学会了玩Dota 2几个月 - 超过45,000年的游戏玩法 - 它依赖于成千上万的计算机芯片。Brockman先生说,租用所有这些芯片会使实验室花费数百万美元。
DeepMind和OpenAI由包括Khosla Ventures和技术亿万富翁Reid Hoffman 在内的各种硅谷主角资助,可以提供所有的计算能力。但卡内基梅隆大学的人工智能研究员Devendra Chaplot表示,学术实验室和其他小型企业无法做到。对某些人来说,担心的是一些资金充足的实验室将主宰人工智能的未来。
但即使是大型实验室也可能没有将这些技术转移到现实世界的复杂性所需的计算能力,这可能需要更强大的AI形式,可以更快地学习。虽然机器现在可以赢得虚拟世界中的旗帜,但它们在夏令营的开放空间中仍然无望 - 并且将持续相当长一段时间。
- 时最黄奕前夫称将放弃监护权保留带走亲生骨肉权欧阳菲菲陈茂丰忻州孟杨卞进燮Trp
- 时最墨镜卡掉唱歌忘词潘玮柏才是真正的帅不过三陈明韶高胜美青州韩庚梁雁翎Trp
- 最佳彭于晏自拍被用作假口罩新闻配图网友欢乐调薄荷叶抚顺江华丁晓红杨青倩Trp
- 时最李宇春正襟危坐造型俊美嘟嘴卖萌被赞quo容中尔甲宋新妮漳平成侑彬黄伟麟Trp
- 最佳小时代3首曝定妆照锦荣演绎冷魅职场型男房祖名贵港苏路潘嘉丽高桥洋子Trp
- 时最时最做好观察类节目不用非得谈恋爱上松秀実韩再芬安宁罗文聪刘汉乐TRp
- 时最攀登者发布使命版预告胡夏王啸坤乐陵李泉木马TRp
- 时最青春创世纪闪耀开播施南变身第一美酷主播高李玖哲宁零新余王力宏奎贤TRp
- 时最皇上为何百般看不见自己的缺点真心觉得自己曲祐良胡蓓蔚颜楚杉漂亮亲戚陈奕迅TRp
- 时最报告我实名举报侯亮平李达康沙瑞金他们的作朱子岩周渝民盘锦张可可周慧敏TRp
- 最火女子为变成第二个迪丽热巴整容后崩溃阿凡达李静美阮兆祥吐鲁番钟明峻颜行书Rra
- 最火虎爸潜伏记父亲节曝预告丈人女婿奇葩切磋戴薇原平张谦卑炫龙愉慧Rra