谷歌公布最大语言模子:即是9个GPT-3,训练成本却低得多

2021-01-13 网络
浏览
[科技新闻]谷歌公布最大语言模子:即是9个GPT-3,训练成本却低得多

原题目:谷歌公布最大语言模子:即是9个GPT-3,训练成本却低得多

杨净 发自 凹非寺

量子位 报道 | 民众号 QbitAI

今天,谷歌大脑声称,他们新手艺能训练 万亿级参数的语言模子。

万亿级,什么观点?

烧了微软10000张显卡的GPT-3,也不外1750亿参数。

现在,他们将这参数目扩大到9倍—— 16000亿参数

这一语言模子正是 Switch Transformer,自称是迄今为止最大的模子,其预训练速率是谷歌以前开发的最大语言模子(T5-XXL)的4倍。

与此同时,此次也首次展现了大型希罕模子 (参数目惊人,但盘算成本恒定)也可以用较低精度的花样举行训练。

迄今最大语言模子

Switch Transformer的设计原则是,用一种简朴有用的希罕性扩展Transformer模子的参数目。

它建立在专家夹杂的基础上,这是90年代初首次提出的人工智能模子范式。

简朴来说,就是在一个更大的模子内保留多个专家,或专门从事差别义务的模子,并由一个“门控网络”为任何给定数据选择咨询哪些专家。

Switch Transformer的创新之处在于,它有用利用了一些硬件,好比GPU和谷歌的TPU等为浓密矩阵乘法设计的硬件。

在分布式训练设置中,模子的希罕激活层在差别装备上分配唯一的权重。以是,模子权重随装备数目的增添而增添,同时在每个装备上保持可治理的内存和盘算空间。

接着,研究人员使用了32个TPU内核在一个数据集上预训练了几个差别的Switch Transformer模子。

这一数据集叫做Colossal Clean Crawled Corpus,750GB巨细,包含了从Reddit、维基百科和其他网络资源中搜索的文本。

研究人员给这些模子部署了义务,好比,在有15%单词被掩饰的段落中预测出缺失的单词;检索文本往返答问题。

,科技日报,

研究人员示意,他们拥有2048个专家系统的1.6万亿参数模子(Switch-C)“完全没有不稳定性”,其速率相比于T5-XXL模子提升了4倍。

此外,研究者还将模子与T5-Base和 T5-Large举行了对比,效果表明,在相同的盘算资源下,新模子预训练速率有 最高7倍的提升。

研究人员示意,大型希罕模子可用于建立较小的麋集模子,在义务上举行微调,其质量增益为大型模子的30%。

从整体效果上看,Switch Transformer 模子在多项推理和知识义务中带来了显著性能提升。这说明该模子架构不只对预训练有用,还可以通过微调将质量改善迁移至下游义务中。

研究人员示意,

我们无法完全保留模子质量,但通过将我们的希罕模子提炼成麋集模子,可以实现10到100倍的压缩率,同时实现约30%的专家模子的质量增益。

在未来的工作中,研究人员设计将Switch Transformer应用于差别模态或多模态模子,包罗图像和文本。

参考链接:

论文地址:https://arxiv.org/abs/2101.03961

https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

本文系网易新闻•网易号特色内容激励设计签约账号【量子位】原创内容,未经账号授权,克制随意转载。

加入AI社群,拓展你的AI行业人脉

量子位「AI社群」招募中!迎接AI从业者、关注AI行业的小伙伴们扫码加入,与 50000 名密友配合关注人工智能 行业生长&手艺希望

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI手艺和产物新动态

最新手艺前沿与产业风向标来了,百度研究院公布2021年十大趋势

2020年,全球抗疫促使AI与5G、大数据、物联网等新一代信息技术相互融合,AI测温、AI问诊、智能外呼、服务机器人等创新应用开始大规模普及,从生活的方方面面支持抗击疫情。 随着AI芯片提供更专业化…