深入的“强化学习”正在比以往更快地教授机器人新技能

$config[ads_kvadrat] not found

Тренувальний тур III етапу Всеукраїнської олiмпiади з iнформатики 2018 2019 навчальний рік

Тренувальний тур III етапу Всеукраїнської олiмпiади з iнформатики 2018 2019 навчальний рік
Anonim

机器人正在学习如何在加速的虚拟世界中完成任务,在几个小时内开发技能,否则可能需要几个月。模拟深层强化学习(或深度RL)意味着A.I.通常需要55天的技能。在现实世界中学习只需要一天的超加速教室。

谷歌DeepMind的研究科学家Raia Hadsell周四在伦敦举行的Re-Work深度学习峰会上说:“它有可能真正彻底改变我们在机器人领域所能做的事情。” “我们可以学习人类技能。”

这听起来可能是违反直觉的,因为机器人的全部意义在于程序员可以教他们做事,对吧?但是,在设计在现实世界中运行的机器时,机器人需要大量数据来了解如何在不熟悉的情况下执行任务。 A.I.可以使用此数据根据之前的所有实例“学习”技能。

深度强化学习以与人类学习方式类似的方式收集数据:机器人将重复完成任务,如接球,并记录数据以建立在新情况下如何最好地接球的图片。当DeepMind在2013年使用该模型教授机器人如何掌握Atari游戏时,只需将其放在屏幕前面并告诉它最终目标,科学界就喜欢它。

问题是,这需要永远。您需要反复向机器人扔球,或者在Atari情况下,将机器人单独留在卧室中一段时间​​。运行MuJoCo仿真,结合渐进式神经网络,训练员可以运行模拟机器人的程序,将学习的行为传递给机器人,并将虚拟动作映射到现实世界。

“我们可以整天和整夜运行这些模拟器,”Hadsell说。

结果不言自明。这个获得文凭的机器人现在可以跟随虚拟球,好像它们是真实的一样,在它被要求抓住一个真正的球时的大日子里启动它:

$config[ads_kvadrat] not found