对人类来说听起来像胡言乱语的刺激与自然主义刺激与深层网络是无法区分的。当您的母亲给您起名字叫声时,您就知道这是她的声音-无论音量大小,即使手机连接不良也是如此。而且,当您看到她的脸时,便知道它是她的脸-如果她很远,照明不佳或FaceTime通话不佳。这种对变化的鲁棒性是人类感知的标志。另一方面,我们容易产生幻觉:实际上,我们可能无法区分不同的声音或图像。科学家已经解释了许多这样的错觉,但是我们对听觉和视觉系统的不缺乏充分的了解。
深度神经网络还执行了语音识别和图像分类任务,对听觉或视觉刺激的变化具有强大的鲁棒性。但是,这些模型学到的不是否类似于人类感知系统学到的不?一群麻省理工学院的研究人员发现他们是不同的。他们昨天在2019年神经信息处理系统会议上介绍了他们的发现。
研究人员对经典概念进行了新颖的概括:“因子-产生相同感知效果的物理上不同的刺激。之所以会出现同质异构刺激最为著名,是因为大多数人的视网膜中有三种不同类型的视锥细胞,它们负责色觉。任何单个波长的光的感知颜色都可以通过三种不同颜色的光(例如红色,绿色和蓝色光)的特定组合来精确匹配。19世纪的科学家从这一观察中推断出,人类在我们的眼睛中拥有三种不同类型的亮光探测器。这是我们每天凝视的所有屏幕上的电子彩色显示器的基础。
视觉系统中的另一个示例是,当我们将视线固定在一个对象上时,我们可能会感觉到周围的视觉场景在外围的不同之处是相同的。在听觉领域,可以观察到类似的东西。例如,尽管组成它们的声学细节不同,但两组昆虫的“质地声音可能无法区分,因为它们具有相似的汇计特性。在每种情况下,同聚物都可以洞察感知的机制,并限制人类视觉或听觉系统的模型。
在当前的工作中,研究人员从标准数据库中随机选择自然图像和口语语音片段,然后合成声音和图像,以便深度神经网络将它们与自然对应物归为同一类。也就是说,它们产生了物理上不同的刺激物,这些刺激物通过模型而不是人类进行了相同的分类。这是一种思考元异构体的新方法,它使概念得以泛化,从而为人类感知者交换了计算机模型的角色。因此,他们称这些合成的刺激为成对的自然刺激的“模型同质物。然后,研究人员测试了人类是否可以识别单词和图像。
参与者听到了一段简短的讲话,因此必须从单词列表中识别出片段中间的哪个单词。对于自然音频而言,这项任务很容易,但是对于许多模型metamers来说,人类很难识别声音。第一作者Jenelle Feather解释说,他是MIT脑与认知科学系(BCS)的研究生,该会员中心脑,头脑和机器(CBMM)。也就是说,人类不会将合成刺激与口语“鸟或鸟的形象归为同一类。实际上,为匹配模型最深层的响应而生成的模型元异构体通常无法被人类对象识别为单词或图像。
BCS副教授兼CBMM研究人员Josh McDermott提出以下情况:“基本逻辑是,如果我们拥有良好的人类感知模型(例如语音识别),那么如果我们选择两种声音,该模型认为这是相同,并将这两种声音呈现给听众,人类也应该说这两种声音是相同的。如果人类听众相反地感觉到刺激是不同的,则这清楚地表明我们模型中的表示与人类感知的表示不匹配。
深层网络的另一种故障已引起媒体的广泛关注:对抗性示例(例如,参见“为什么我的分类器只是将乌龟误认为是步枪? )。这些刺激看起来与人类相似,但是被模型网络分类错误(根据设计,它们被构造为分类错误)。它们是Feather小组产生的刺激的补充,Feather小组的刺激听起来或看起来与人类不同,但旨在通过模型网络进行共同分类。遭受对抗攻击的模型网络的漏洞是众所周知的。自动驾驶汽车可能无法识别行人。
这项工作的重要性在于超越深度网络来改善感知模型。尽管标准的对抗性示例表明了深层网络与人类感知系统之间的差异,但是McDermott小组产生的新刺激可以说是更根本的模型失败-它们表明,由深层网络归类为相同的刺激的通用示例会产生截然不同的感知对于人类。
研究小组还想出了修改模型网络以产生对人类来说更合理的声音和图像的异源异构体的方法。正如McDermott所说:“这给我们希望,我们最终能够开发出通过同聚物测试并更好地捕获人类不的模型。
Feather说:“模型元证明了当今的神经网络在匹配人类视觉和听觉系统不方面的重大失败,我们希望这项工作将为改进模型表示和创建更好的模型提供有用的行为量测棒。人类的感觉系统。
本站内容均为网友上传,网站举办方负责审核和监督,如存在版权或非法内容,欢迎举报,我们将尽快予以删除。