Five Little Ducks - THE BEST Songs for Children | LooLoo Kids
目录:
几十年来,计算机一直在国际象棋中踢我们脆弱的人类驴。这是第一次发生在1996年,当时IBM的Deep Blue能够击败世界冠军Gary Kasperov。但是来自Alphabet的A.I.的一项新研究。装备DeepMind揭示了早期胜利的范围有多么有限。
其中一个,卡斯佩罗夫右后卫反弹,赢得了三场比赛,并且在一场六场比赛的季后赛中两次进球 每日新闻 报告。
但更值得注意的是,正如DeepMind研究员Julian Schrittwieser所说 逆 ,Deep Blue等应用程序也是手动编程的。这意味着人类必须教授A.I.它需要知道的关于如何处理每一个可以想象的偶然性的一切。换句话说,它只能像人们编程一样好。虽然Deep Blue显然能够很好地下棋;给它另一个类似的游戏,比如Go,它一直是无能为力的。
Alpha Zero完全不同。在今天发表在期刊上的一项新研究中 科学 ,作者揭示了他们如何能够不仅仅教阿尔法零度如何在国际象棋中击败人类,而且如何教阿尔法零如何 自学 掌握多个游戏。
如何教A.I.教自己
Alpha Zero是使用一种称为深度强化学习的技术开发的。基本上,这涉及教授A.I.一些非常简单的东西,比如国际象棋的基本规则,然后一遍又一遍地做这个简单的事情,直到它学会更复杂,有趣的事情,比如战略和技巧。
“传统上……人类会利用他们对游戏的了解并尝试用规则编写代码,”Schrittwieser说,他已经在Alpha Zero工作了近四年。 “我们的方法是随机初始化,然后让它玩自己的游戏,从这些游戏本身,它可以了解哪些策略有效。”
所有Alpha Zero获得的都是基本规则,并从那里学习如何通过自己的方式获胜。根据新的调查结果,Alpha Zero只用了9个小时就掌握了国际象棋,12小时掌握了Shogi,大约13天就掌握了Go。因为它在演奏,所以它基本上是自学成才。这是所有世界冠军人类引导算法的百分之百,在91%的时间里击败了Shogi的2017年世界冠军。
“它可以独立发现有关游戏的有趣知识,”Schrittwieser说。 “它导致程序更像人类。”
虽然它的风格是人类和创造性的,但是,它也可能是最佳的,他说,足以使Alpha Zero能够在任何可以访问所有可用信息的游戏中占据主导地位。事实上,Alpha Zero是如此复杂,我们可能需要转向一个完全不同的游戏类别,以便继续推动A.I.的界限。解决问题。
为什么Alpa Zero如此优秀
A.I.由于一些原因,研究人员喜欢将这些游戏用作更复杂的算法形式的测试基础。它们很优雅,人们已经玩了数百年,其中一个,意味着你有很多潜在的挑战者来测试你的算法。但它们也复杂而复杂,这意味着它们可以成为A.I.的垫脚石。这可以解决现实世界中的问题。 Schrittwieser说,下一个研究领域是创建像Alpha Zero这样的算法,它仍然可以利用不完美的信息做出最佳决策。
“在所有这些游戏中,你都知道所发生的一切,”他说。 “在现实世界中,您可能只知道部分信息。你可能知道自己的牌,但是你不知道你的对手,你有部分信息。“
还有一些桌面游戏能够像Alpha Zero这样的算法提供这样的挑战--Schrittwieser提到了Stratego,其中玩家隐藏了彼此的移动 - 以及星际争霸,这是DeepMind的游戏研究人员的另一个感兴趣领域。
“我们希望解决我们解决的问题越来越复杂,”他说。 “但它一直是一个维度。”
与此同时,Deep Mind的下一代计算机化问题解决者已经显示出从游戏世界进入现实世界的潜力。本周早些时候,它宣布了另一种名为AlphaFold的算法,该算法能够将蛋白质序列外推到其3D结构的准确预测中。这是几十年来困扰科学家的一个问题,可以帮助打开治愈阿尔茨海默氏症和囊性纤维化等疾病的大门。