麻烦'Pong'的算法现在非常出色'Flappy Bird',仍然单身

$config[ads_kvadrat] not found

2-970817ä¸åœ‹éº—緻後院

2-970817ä¸åœ‹éº—緻後院
Anonim

改进开创性的深度学习方法 傍, 太空侵略者 和其他Atari游戏一样,斯坦福大学的计算机科学专业学生Kevin Chen创造了一种算法,该算法在经典的2014年侧卷轴上相当不错 飞扬的鸟 。 Chen利用了一种被称为“q-learning”的概念,其中一个代理人旨在通过每次迭代的游戏来提高其奖励分数,以完善几乎不可能和不可能上瘾的游戏。

Chen创建了一个系统,其中他的算法被优化以寻求三个奖励:每个帧保持活着的小积极奖励,通过管道的大奖励,以及对于死亡的同样大(但是否定的)奖励。因此,根据Chen撰写的报告,所谓的深q网络可以超越人类,“我们能够成功地玩游戏 飞扬的鸟 通过直接从像素和分数中学习,实现超人类的成果。“

最初的Atari论文,于2015年出版 性质 ,来自谷歌拥有的DeepMind公司(现在以掌握中国古代棋盘游戏Go而闻名)。 DeepMind的成就是一个突破,它采用视觉或像素,至少 - 信息,并且,只需最少的输入,就能最大限度地获得奖励。这种奖励系统被简化为大脑的多巴胺能反应。

这并不是算法第一次征服扑翼鸟:早期的斯坦福大学计算机科学专业的学生创建了一个程序,经过一夜之间的训练,其得分从0管道改为1,600。

$config[ads_kvadrat] not found