探讨Google mBERT的秘密:深度学习若何处置人类语言?

2021-02-28 网络
浏览
[科技新闻]探讨Google mBERT的秘密:深度学习若何处置人类语言?

原题目:探讨Google mBERT的秘密:深度学习若何处置人类语言?

ai.com/upload/2021/2/VzeUza.jpeg" class="aligncenter">

图片泉源@视觉中国

文丨学术头条

具有语言能力的深度学习系统已经普遍应用于人们的生涯当中。其中一些系统使用了 Google 公布的特定深度学习模子 —— 多语言 BERT(Multilingual BERT,简称 mBERT)。

mBERT 模子可以同时接受约莫 100 种语言的训练,这种多语言的训练使模子可以完成种种语言义务,例如,将文本内容从一种语言翻译成另一种语言。

虽然已经发现 mBERT 模子在许多语言义务中显示优越,然则人们对 mBERT 模子 “若何建立文本并若何做出展望” 的相关信息并不清晰。

为此,来自斯坦福大学、加州大学欧文分校和加州大学圣巴巴拉分校的研究人员团结开展了一项新的研究,研究目的是为了更好地明白基于 mBERT 模子的手艺是若何运行的,以及它是若何建立语法特征的。

相关研究结果以 “Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT” 为题,已揭晓在论文预印本网站 arXiv 上。该论文为这些常用模子的基础以及它们在完成种种义务时若何剖析语言提供了名贵的线索。

(泉源:arXiv)

神秘莫测的 mBERT 模子

在已往的几十年中,研究人员开发了基于深度神经网络的模子,它们可以完成林林总总的义务。其中一些手艺专门设计用于处置和天生多种语言的连贯文本、翻译文本,并可以回覆有关文本的问题,以及建立新闻文章或其他在线内容的摘要。

对照典型的代表是 Siri、Alexa、Bixby、Google Assistant 和 Cortana 等应用程序,这些程序为实时翻译、剖析文本提供了极大的便利。

ai.com/upload/2021/2/Yr2QBj.jpeg" class="aligncenter">

图 | 多种多样的语音交互系统 (泉源:Medium)

而这些应用程序大部分采用了 Google 公布的 mBERT 模子,用户可以使用多种语言(好比英语、西班牙语、法语、巴斯克语和印尼语等)与基于 mBERT 的系统举行交互。

虽然像 mBERT 这样的模子异常壮大,然则与经由预先训练的深度学习模子差别,它们现实上包罗的信息并不显著,甚至对它们的创造者来说也是云云。

这是由于这些模子是经由训练的,而不是经由编程获得的。因此,探讨 mBERT 模子的事情原理,成为了许多使用者体贴的问题 。明白 mBERT 模子若何对语言举行编码与实验明白人类若何处置语言并没有太大差别。

此次研究的主要目的是,确定 mBERT 矢量模子是否包罗关于人类语言及其结构的一些更深条理的信息。更具体地说,他们想确定这些模子,是否能够自动地展现几十年来语言学研究已经确定的归纳综合,这些归纳综合信息对语言剖析来讲是十分有用的。

致力于明白 mBERT 模子

本质上,mBERT 模子将文本示意为一系列矢量,每个矢量包罗数千个数字。每个矢量都对应一个单词,而单词之间的关系则被编码为高维空间的几何关系。

加州大学圣巴巴拉分校的语言学家、指导这项研究的高级研究员之一 Kyle Mahowald 示意:“由于这些模子在处置人类语言方面做得很好,因此我们知道这些数字向量一定代表了语言知识。然则它们是若何编码这些信息的,这与人类大脑中知识的表达方式有什么相似之处?我们的事情是起劲明白语言的深层神经模子示意和使用语言信息的方式的一部分。”

加州大学欧文分校的语言科学家、该项目的另一位高级顾问 Richard Futrell 说:“这是研究盘算语言学稀奇令人兴奋的时刻。多年来,语言学家一直在谈论诸如‘语义空间(semantic space)’之类的观点,以为单词和短语的意义是某个空间中的点,但这都显得有点模糊和印象主义。现在,这些理论已经变得异常准确:我们现实上有一个模子,其中一个单词的寄义是空间中的某一个点,而且这个模子确实以一种表示其明白某些人类语言的方式显示。”

ai.com/upload/2021/2/FJvmIj.jpeg" class="aligncenter">

,科技前沿,

(泉源:Pixabay)

为了处置人类语言,在深入剖析人类语言之后,mBERT 模子和其他基于深度学习的语言剖析框架,现实上可能已经重新发现了语言学研究者在深入剖析人类语言之后所设计的理论。或者,它们可能基于全新的语言理论或规则举行展望。

对此,Mahowald 和他的同事们希望进一步探索这两种可能性,由于明白这些盘算手艺若何对语言举行编码可能对盘算机科学和语言学的研究具有主要的意义。

Futrell 说:“领会这些模子的事情原理,即它们学到了什么信息以及若何使用这些信息,不仅在科学上很有趣,而且也对于我们想要开发可以使用和信托的 AI 系统至关主要。若是我们不知道语言模子知道什么,那么我们就不能信赖它会做准确的事。也就是说,我们不信赖它的翻译是准确的或者它的总结是准确的,我们也不能信赖它没有学到种族或性别私见等不良信息。”

由于 mBERT 模子通常是在人类编译的数据集中举行训练的,因此它们可能会发现一些人类在处置与语言相关的问题时常犯的一些错误。这项由多学科团队举行的研究可能有助于发现 AI 工具在剖析语言时所犯的一些错误和其他错误。

识别差别语言的主语和宾语

为了加倍深入地明白 mBERT 模子,研究人员着手研究 mBERT 模子若何代表差别语言中主语和宾语之间的差异。

Mahowald 说:“当在 mBERT 中输入一个句子时,每个单词都市获得一个矢量示意。我们建立了一个新模子,这个模子比 mBERT 要小得多,然后我们问:若是我们从 mBERT 获得一个单词矢量,这个模子能告诉我们它是一个主语照样宾语吗?也就是说,该模子能否告诉我们,‘狗’这个字用法是不是句子的主语,就像‘狗追猫’中那样,或句子的宾语,如‘猫追狗’。”

人们可能会假设所有语言都形貌了主语和宾语的关系,而且它们以相似的方式示意。然则,在差别的语言中,主语和宾语的组成现实上存在伟大的差异。

该论文的作者之一、斯坦福大学盘算机科学专业的研究生 Isabel Papadimitriou 和她的同事们试图行使这些差异来更好地明白 mBERT 模子是若何处置句子。

Papadimitriou 说:“若是人们使用英语,那么‘狗追猫’中的‘狗’字似乎与‘狗跑了’中的‘狗’字饰演相同的身分。在第一种情况下,动词有宾语‘猫’,在第二种情况下,它没有宾语。但在两种情况下,‘狗’是主语、主体、行为者,而在第一句中,‘猫’是宾语,是正在做的事情。然则,并非所有语言都云云。”

ai.com/upload/2021/2/2yiEjy.jpeg" class="aligncenter">

图 | 研究历程说明 (图源:arXiv)

英语和欧洲人所说的大多数语言,都有一种被称为主格对齐的结构,这种结构清晰地形貌了句子中的主语和宾语。

然则,包罗巴斯克语,北印度语和格鲁吉亚语在内的语言,使用的是一种代名词对齐。在代名词对齐中,在没有宾语的句子中,主语在某种意义上被视为宾语,由于它遵照用于宾语的语法结构。例如,句子 “狗在奔跑” 中的 “狗” 字某种程度上即是主语也是宾语。

Papadimitriou 说:“我们事情的主要目的是测试 mBERT 是否明白这种对齐、代名词或主语的观点。换句话说,我们问:mBERT 能否深入明白动词的主语和宾语是什么组成的,以及差别的语言若何将空间分割成主语和宾语?事实证明,同时接受约莫 100 种语言培训的 mBERT 会以有趣的语言方式意识到这些区别。”

机械可以明白人类语言

这些发现为 mBERT 模子以及其他用于语言剖析的盘算模子若何示意语法信息提供了新的有趣看法。有趣的是,研究人员研究的基于 mBERT 向量示意的磨练模子也发现会发生一致的错误,这些错误可能与处置语言的人类所犯的错误一致。

Papadimitriou 说:“在差别的语言中,当一个主语是一个无生命的名词时,我们的模子更有可能错误地将该主体称为主语,这意味着该名词不是人类或动物。这是由于句子中的大多数行为者往往是有生命的名词:人类或动物。现实上,一些语言学家以为主观性现实上是一个局限。与人类相比,作为人类的受试者比作为动物的受试者更‘主观’,作为动物的受试者比既不是人类也不是动物的受试者更‘主观’,这正是我们在 mBERT 模子中发现的。”

总体而言,研究解释 mBERT 模子可以识别句子中的主语和宾语,并以与现有语言学文献一致的方式示意两者之间的关系。

在未来,这一主要发现可以辅助盘算机科学家更好地明白深度学习手艺是若何处置人类语言的,从而辅助他们进一步提高性能。

Mahowald 示意:“我们现在希望继续探索语言的深层神经模子,在它们的延续向量空间中示意语言种别(如主语和宾语)的方式。具体来说,我们以为语言学的事情可以告诉我们若何看待这些模子以及它们在做什么,语言学的事情试图将主语和宾语等角色形貌为一组特征,而不是离散的种别。”

参考资料:

https://arxiv.org/abs/2101.11043v1

原创 地球气候“大杀器”,大西洋关键性洋流失衡,小冰河真的会出现?

如今针对大西洋关键性洋流失衡,可以说真的是地球气候的“大杀器”,而出现这种的原因,按照科学家的分析,预计速度变慢是与全球气候变暖,冰川融化存在一定的关系,是这些气候变化带来了海洋水域的失衡,通过数据的分析…