? NLP模型超越人类水平?你可能碰到了大忽悠_CQITer_重庆IT人之家 亚博APP入口,亚博vip体育官网,yabo88亚博app ?

NLP模型超越人类水平?你可能碰到了大忽悠

编译:张睿毅、武帅、钱天培

一个军方训练的神经网络声称可以分类图像中的坦克,但实际上,它只是学会了识别不同的亮度,因为一种类型的坦克仅出现在明亮的图片中,而另一种类型仅出现在较暗的图片中。

一个游戏AI在学会了在第一关的最后故意死去,而不是在更难的第二关的开局死去,因为这样可以得到更高的分数。

AI通过某种让人啼笑皆非的奇怪方式尝试骗过人类,并达到自己的目的,这样的案例之前文摘菌总结过一大批。

模型通过学习“错误”的信息来解决任务的问题已经存在很长时间了,并被称之为“聪明汉斯效应(Clever Hans effect)”。

NLP模型超越人类水平?你可能碰到了大忽悠

该效应说的是,一匹名为汉斯的马看似能完成一些简单的智力任务,但实际上只是依赖于人们给出的无意识线索。

“聪明汉斯效应(Clever Hans effect)”在图像检测领域早已有之,但最近,在一篇最新论文中,来自台湾国立成功大学的Niven和Kao指出,这一现象也正在NLP领域大受关注。脱去它的影响后,BERT也许没有我们想得那么神奇。

先附上论文链接,再一起看看这个论证过程:https://www.aclweb.org/anthology/P19-1459/

Niven和Kao采用了一个论证理解数据集。随机选择的准确率为50%;之前表现最好的模型的准确率为71%;然后他们选择了BERT,仅仅微调后,便达到了惊人的77%的准确率。

如此看来,BERT似乎确实名不虚传。

但是,作者对这一看似很成功的“微调”产生了怀疑,并尝试对此进行论证。

NLP迎来“聪明的汉斯”时刻

论证理解是一项相当困难的任务,需要世界知识和常识推理。虽然BERT毫无疑问是目前为止最好的语言模型之一,其迁移学习正是“NLP的Imagenet时刻”,但鲜有证据表明,语言模型已经习得高级自然语言理解这一技能。

给定一个论点和一个原因,我们需要找出使得该推理成立的论据。

NLP模型超越人类水平?你可能碰到了大忽悠

举个例子,假设论点是“谷歌不存在垄断”,原因是“人们可以选择不使用谷歌”。这一推理成立背后需要一个论据,即“其他搜索引擎并没有导向谷歌”。但是如果说“其他搜索引擎都导向了谷歌”,那么论点就不能成立了。

作者也对BERT模型进行了三项分析。

首先,他们在可能的答案(即论点)中计算了一元文法(unigrams)和二元文法(bigrams),并观察到像not,is,or之类的单个一元文法相较于随机概率而言,能够更好地预测出正确的论点。这表明这些线索是有用的,并且也可能为模型所利用。

接着,为了检查模型是否确实利用了这些线索,作者只给模型提供了部分输入,这使得模型不可能推出正确答案。例如,如果没有给出论点或原因,就不可能推断出“其他搜索引擎没有重定向到谷歌”或“其他搜索引擎全都重定向到了谷歌”这两个论据哪一个是正确的。然而,模型并不理会这一不可能性,并以71%的准确率识别出了正确的论点。

在试验完其他两项类似的任务之后(仅论点和论据;仅原因和论据),作者总结到,数据集中包含着统计线索,而BERT的良好表现完全归功于对这些线索的利用。

为了说明这一点,在他们的第三个实验中,作者构建了一个数据集,其中的线索不再提供信息,发现BERT性能下降到随机概率水平。

相信大多数人会同意,一个基于大量的如not,is,do之类的一元文法做出预测的模型是不可能真正理解论证的。

因而,作者声明他们的SOTA结果毫无意义。

这让人联想到最近两个臭名昭着的案例。一个是图像分类器,声称能够区分罪犯的面孔和守法公民的面孔,但实际上只是在检测微笑;另一个是所谓的“性取向检测器”,实则是在检测眼镜,胡须和眼影。

NLP模型超越人类水平?你可能碰到了大忽悠

如果NLP跟随计算机视觉的脚步,似乎也注定要重蹈它的覆辙。

回到论文中,作者指出,最近大量的工作显示NLP数据集中的“聪明汉斯效应”。

要明确的是,这也不是说像BERT这样的大型模型或深度学习都是无用的。但是,对于深度学习模型在高级自然语言理解任务中表现出的近乎人类表现的报告,我们应该持怀疑态度。

模型表现超好?别急着开心,试试能不能骗过它!

发现聪明汉斯效应案例的论文越来越多,这为NLP研究提出了重要的新议题。最明显的一个议题就是,如何预防这种影响。

相关推荐
新闻聚焦
猜你喜欢
热门推荐
  • 微软AI面试题有多难?这里有一份样卷

      究竟什么样的AI人才能被微软这样的巨头聘用呢?今天,文摘君就淘来了几道微软AI 面试题,同时给出了最基本的解答......

    06-25????来源:澎湃新闻网

    分享
  • 腾讯吐个槽“讲产品故事拿大奖”活动:

      每一个产品故事都值得被聆听, 每一位奋斗者的历程都值得被肯定! 今天,「吐个槽」X「腾讯课堂产品学院」发起讲产品故......

    09-02????来源:未知

    分享
  • 全球最聪明的大脑怎么看AI?他们预测了

      2017年AI领域取得了诸多成果。2018年AI又将何去何从?以下是来自世界顶级研究人员和行业领军人物对2018年AI领域发展作......

    02-20????来源:虎嗅网

    分享
  • 2017JavaScript框架战报 - React分战场

      我们来看看与React有关的软件包的生态系统。当Facebook构建React时,就有许多来自开源社区的第三方软件包。为提供完......

    02-27????来源:湖北新闻网

    分享
  • 小白学数据:教你用Python实现简单监督学

      监督学习作为运用最广泛的机器学习方法,一直以来都是从数据挖掘信息的重要手段。即便是在无监督学习兴起的近......

    03-05????来源:今日头条

    分享
  • 现代编程语言Swift、Kotlin等十大有趣功能

      最近学习了一些现代编程语言,比如Reason,Swift,Kotlin和Dart。这些编程语言提供了许多新功能,本文主要分享了我认......

    04-29????来源:祁东新闻网

    分享
  • 领域场景分析的6W模型

      组成场景的要素常常被称之为6W模型,即描写场景的过程必须包含Who,What,Why,Where,When与hoW这六个要素。......

    04-30????来源:砍柴网

    分享
  • 开源应用服务器WildFly 12发新季度交付模式

      WildFly 12 Final版本现在已经可以下载了,WildFly是一款灵活的开源应用服务器,支持开发人员构建轻量级应用程序。支持......

    05-10????来源:青岛新闻网

    分享
  • 基于Spring Cloud的微服务落地

      微服务架构模式的核心在于如何识别服务的边界,设计出合理的微服务。但如果要将微服务架构运用到生产项目上,......

    06-04????来源:广西新闻网

    分享
  • 为什么阿里工程师纷纷在内网晒代码?

      前阵子,在阿里一个小黑屋里,5名对代码有着极致追求的工程师参与阿里代码领域最高荣誉“多隆奖”的最终角逐。......

    06-08????来源:四川新闻网

    分享
返回列表
Ctrl+D?将本页面保存为书签,全面了解最新资讯,方便快捷。