Тренувальний тур III етапу Всеукраїнської олiмпiади з iнформатики 2018 2019 навчальний рік
几乎每当关于人工智能的未来的重大讨论出现时,无政府状态和机器人霸主的主题往往会出现。人类和先进的人造生物共同生活的想法催生了数百种关于如何起作用的叙述;最近,视频游戏 监工 在一次大规模的人与机器人内战之后的一段时间里,世界震惊了世界,讲述了我们的未来。当波士顿动力公司的一名工程师为了进行压力测试而踢他们的四足机器人之一时,很难不怀疑这个机器人是否会记住这一天。
所有这些(以及关于安全和事故的基本常识)导致一组研究人员发表了一篇新论文,专注于开发“安全可中断代理”;系统将“中断”A.I.软件,如果出现任何问题。该论文通过机器智能研究所出版,是一项关于如何开发所提出的系统的研究。该研究和提案使用奖励系统作为一个例子,实际上远比仅仅点击工作表上详细提出的“大红色按钮”复杂得多。为A.I.教授道德是该提案的主要部分。
如果这样的代理人在人工监督下实时操作,那么操作人员可能需要按下大红色按钮以防止代理人继续执行有害的一系列操作 - 对代理人或对代理人有害环境 - 并使代理人进入更安全的境地。然而,如果学习代理期望从该序列接收奖励,则可以长期学习以避免这种中断,例如通过禁用红色按钮 - 这是不期望的结果。本文探讨了一种确保学习代理不会学习防止(或寻求!)被环境或人类操作员打断的方法。
每当关于机器人无政府状态的研究论文都使用“不良结果”这个术语时,一定要喜欢它 - 然而,本文继续解释测试运行以及将来可以对这些实例做些什么。你可以在这里阅读全文。