--û--ø--µ—Ä--∞—Ç--æ—Ä --ö--æ--ª—è --ß--µ—Ä—Ç--æ—Ä--æ--µ--≤
纽约康奈尔科技大学的三位研究人员发现,模糊和像素化的图像与人工智能无法匹敌。虽然模糊的图像对于人眼来说仍然是不可理解的,因此似乎保护了它们的敏感内容,神经网络通常可以准确地告诉原始图像中的谁。
换句话说,人类不再是试金石。我们再也不能仅仅问一些事情是否会击败所有人的大脑。 A.I.s - 即使是简单的A.I.s--也可以胜过人类,所以击败它们也必须始终是等式的一部分。
康奈尔大学科技研究人员的研究重点是测试隐私保护算法,该算法模糊或像素化某些信息或图片的某些部分。以前,我们隐含地信任隐私保护软件或算法,认为他们隐藏的信息是安全的,因为没有 人的 可以分辨谁是数字面纱背后的人。该研究表明,那个时代已经结束,相关的匿名化方法也不会持久。遇到这些隐私措施的神经网络并不担心。
Richard McPherson是博士。德克萨斯大学奥斯汀分校计算机科学专业的学生,跟随他的教授Vitaly Shmatikov,到康奈尔理工学院学习。他们与Reza Shokri一起证明了简单的神经网络可以揭示常见的图像混淆技术。该技术相对简单,这使得发现更令人担忧:这些是常见的,可访问的方法,并且它们能够打破行业规范以进行混淆。
神经网络是节点或人工神经元的大型分层结构,模仿大脑的基本结构。他们“基于对神经元如何工作的简化理解”,麦克弗森说 逆 。 “给它一些输入,神经元要么发射,要么不发射。”
他们也能够通过对术语的粗略定义来“学习”。如果你展示一个野性(完全没有受过教育的)人类的东西“红色”,并告诉他们从桶中挑出所有“红色”的东西,他们一开始会挣扎,但随着时间的推移会有所改善。神经网络也是如此。机器学习只是意味着教一台计算机来挑选“红色”的东西,例如,从一堆杂乱的东西中挑选出来。
这就是麦克弗森和公司如何训练他们的神经网络。 “在我们的系统中,我们创建了一个模型 - 一个神经网络架构,这些人工神经元的结构化集合 - 然后我们给它们大量的混淆图像,”他说。 “例如,我们可能会给他们一百张不同的卡罗尔图片,这些图片已经过像素化,然后是一百张不同的鲍勃像素图片。”
研究人员然后标记这些像素化图像,这样做可以告诉模型每个图像中的人物。在处理完这个数据集之后,网络在功能上知道Pixelated Bob和Pixelated Carol的样子。 “我们可以给它一个不同的像素化的鲍勃或卡罗尔图片,没有标签,”麦克弗森解释说,“它可以猜测并说,'我认为这是鲍勃的准确率为95%。'”
该模型不会重建混淆图像,但它能够击败最常见和以前最可靠的匿名化方法这一事实本身就令人不安。 “他们能够弄清楚什么是混淆,但他们不知道它原来是什么样的,”麦克弗森说。
但神经网络仍能比人类做得更好。当使用一种行业标准技术对图像进行最多混淆时,系统仍然准确率超过50%。对于稍微不那么混淆的图像,系统证明非常显着,精度约为70%。 YouTube模糊面孔的标准完全失败;即使是最模糊的图像也被神经网络击败,证明了96%的准确率。
其他先前未经过修饰的数据,文本和图像匿名化技术同样不可靠。麦克弗森说:“今年夏天有一项工作是通过使用像素化和模糊来查看匿名文本,并表明它们也能够被打破。”其他一度值得信赖的方法也可能正在走出困境。虽然他不知道语音混淆技术的来龙去脉,如用于匿名电视采访的技术,如果神经网络可以打破匿名化,他“不会感到惊讶”。
麦克弗森的发现然后证明,“我们过去保留的隐私保护方法并不真正适用于鼻烟,尤其是现代机器学习技术。”换句话说,我们将自己编码为不相关的,训练机器到在所有领域都超越我们。
研究人员写道:“随着机器学习力量的增长,这种权衡将转向对手的利益。”