1.6 万亿参数你怕了吗?谷歌大脑语言模子速率是 T5 速率的 7 倍

2021-01-14 网络
浏览
[科技新闻]1.6 万亿参数你怕了吗?谷歌大脑语言模子速率是 T5 速率的 7 倍

原题目:1.6 万亿参数你怕了吗?谷歌大脑语言模子速率是 T5 速率的 7 倍

【CSDN 编者按】四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动

作者 | 八宝粥 责编 | 张文

头图 | CSDN 下载自视觉中国

出品 | CSDN(ID:CSDNnews)

著名实验和理论物理学家、诺奖得主费米曾经这样引用冯诺依曼的话:“四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动”。看似是个玩笑,实际上 在 2010 年,真的有一篇论文研究绘制大象。

ai.com/upload/2021/1/EJbyAz.jpeg" class="aligncenter">

机械学习当中,参数越多,理论上的精度越高(也极易发生过拟合),固然需要的算力也更多,GPT-3 使用了惊人的 1750 亿参数,堪称史上最大 AI 模子,没想到这才多久,Google Brain 团队就搞了一个大新闻,他们使用了 1.6 万亿参数推出了语言模子 Switch Transformer,比 T5 模子当中的 T5-XXL 模子还要快4倍,比基本的 T5 模子快了 7 倍。

ai.com/upload/2021/1/bi2Afq.png" class="aligncenter">

克日,Google Brain 团队在预印本公布论文《SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY》,宣布 行使万亿级参数举行预训练的希罕模子 SWITCH TRANSFORMERS 的降生,该方式可以在控制通讯和盘算资源的情况下提升训练的稳定性,一致盘算资源条件下比 T5-XXL 模子快 4 倍

来自 Google Brain 的三位科学家 William Fedus、Barret Zoph 以及 Noam Shazeer 使用了 Switch Transformer 模子,简化了 MOE 的路由算法、设计了直观的改善模子,从而实现了通讯和盘算成本的降低。值得期待的是,这种训练方式修复了不稳定性,而且首次展示了大型希罕模子在低精度(bfloat 16)花样下举行训练。将模子和 T5 模子举行对比,基于 101 种语言的设置和 C4 语料库(Colossal Clean Crawled Corpus,从网络上抓取的数百 GB 清洁英语文本) 训练效果实现了对 T5 模子的逾越,甚至是 7 倍速碾压。

模子原理

深度学习模子通常对于所有的输入重复使用相同的参数,而专家夹杂模子(Mixture-of-Experts)则不是这样,它接纳的模式是对输入实力选择差别的参数。这样的效果就是可以在盘算成本稳定的情况下获得一个希罕激活模子,它的参数可以是无比伟大的。然而 MOE 具有较大的通讯成本,且训练不稳定,因而难以推广。

简朴来说,Google Brain 基于 MOE 推出了一种方案,行使希罕模子增添速率,对于需要浓密模子的时刻也可以将希罕模子蒸馏成浓密模子,同时举行微调,调整 dropout 系数制止参数过大的过拟合。

关于 MOE

夹杂专家系统属于一种集成的神经网络,每一个专家就是一种神经网络,我们查看特定案例的输入数据来辅助选摘要依赖的模子,于是模子就可以选择训练案例而无需思量未被选中的例子,因此他们可以忽略不善于的建模内容。它的主要头脑就是让每位专家专注于自己比其他专家更优的内容。

这样一来,整体的模子就趋于专业化,若是当中的每个专家都对展望变量求平均,那么每个模子就都要去抵偿其他模子发生的综合误差。所谓“术业有专攻”,专家就让他去搞专业的事情。

ai.com/upload/2021/1/MzmmQr.png" class="aligncenter">

token 路由动态图

在这个模子当中,每个专家处置牢固的批量 token 容量系数,每个 token 被路由到具有最高路由概率的专家,然则每个专家的批处置量巨细是(token 总数/专家总数)×容量因子,若是 token 分配不均,某些专家就会超载,大的容量系数可以缓解流量问题,也会增添通讯成本。

权重分配与近水楼台

ai.com/upload/2021/1/yEZ3ai.png" class="aligncenter">

数据和权重划分计谋

每个 4×4 的虚线网格示意 16 个核,阴影正方形是该核上包罗的数据(模子权重或令牌批次)。

我们说明了如作甚每种计谋拆分模子权重和数据张量。

,

科技是智慧的体验,人文科技、未来科技带您走进新时代的步伐,

秀羞科技频道为大家提供科技全方面的报道和资讯服务。

,

第一行:说明模子权重若何在焦点之间分配。此行中差别巨细的形状示意前馈网络(FFN)层中较大的权重矩阵。阴影正方形的每种颜色标识唯一的权重矩阵。每个焦点的参数数目是牢固的,然则较大的权重矩阵将对每个令牌应用更多的盘算。

第二行:说明若何在内核之间拆分数据批。每个内核持有相同数目的令牌,从而在所有计谋中保持牢固的内存使用率。分区计谋具有差别的属性,允许每个内核在内核之间具有相同的令牌或差别的令牌,这是差别颜色所象征的。

同时,该模子对于浓密矩阵乘法顺应硬件举行了有用行使,好比 GPU 和 Google 自家的 TPU,早在 2019 年,Google AI 就模拟了果蝇东岸从的神经图,由于扫描后重修图像高达 40 亿像素,为了处置这些图片,Google AI 使用数千块 TPU 举行盘算处置,可以说是下了血本。而此次推出的模子,它需要最低的硬件尺度只是知足两个专家模子的需要就够了。

ai.com/upload/2021/1/VJrQja.png" class="aligncenter">

如上,知足两个专家的模子,仍然能够对 T5-Base 模子有所提升。

跑个分~

之前先容到,Google Bain 那时的 T5 组合模子霸榜过 SuperGLUE,该模子在语言模子基准测试榜 GLUE 和 SuperGLUE 上得分均差别水平地跨越 T5 的基础水平,也算是正常施展。

ai.com/upload/2021/1/Ife6za.png" class="aligncenter">

微调正则化效果

虽然模子距离现在榜首的 DeBERTa 组合模子另有较长的一段路要走,该项目最大的意义在于实现了超大型参数和希罕模子连系的高效使用,

ai.com/upload/2021/1/iQn6bq.png" class="aligncenter">

下游实验中,我们举行了 101 种语言的测试,可以看到该模子相比浓密模子,在所有的义务上均有显著提升。

就地答疑

31 页的论文,难免有读者看完之后有好奇或不解,作者想到了这个问题,直接写了出来。

作者强调,在希罕专家模子当中,“希罕” 指的是权重,而不是关注模式。

  • 纯粹的参数手艺会让 Switch Transformer 更好吗? 是的,看怎么设计!参数和总的 FLOPs 是自力权衡神经语言模子的尺度。大型模子已经被证实具有优越的显示,不外基于相同盘算资源的情况下,我们的模子具有加倍简练、有用且快速的特点。
  • 我没有超算——模子对我来说依然有用吗? 虽然这项事情集中在大型模子上,我们发现只要有两个专家模子就能实现,模子需要的最低限制在附录当中有讲,以是这项手艺在小规模环境当中也异常有用。
  • 在速率-精度曲线上,希罕模子相比浓密模子有优势吗? 固然,在种种差别规模的模子当中,希罕模子的速率和每一步的显示均优于浓密模子。
  • 我无法部署一个万亿参数的模子-我们可以缩小这些模子吗? 这个我们无法完全保证,然则通过 10 倍或者 100 倍蒸馏,可以使模子酿成浓密模子,同时实现专家模子 30%的增益效果。
  • 为什么使用 Switch Transformer 而不是模子并行麋集模子? 从时间角度看,希罕模子效果要优越许多,不外这里并不是非黑即白,我们可以在 Switch Transformer 使用模子并行,增添每个 token 的 FLOPs,然则这可能导致并行变慢。
  • 为什么希罕模子尚未普遍使用? 扩展麋集模子的伟大成功削弱了人们使用希罕模子的动力。此外,希罕模子还面临一些问题,例如模子复杂性、训练难度和通讯成本。不外,这些问题在 Switch Transformer 上也已经获得了有用的缓解。

论文很长,深入领会,还需阅读全文。

参考资料:https://arxiv.org/pdf/2101.03961.pdf

项目代码地址:https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py

end

突发!Intel CEO 换帅,VMware CEO 将走马上任

微信封杀 QQ 音乐、拼多多等 App 外链;蠕虫病毒在海内肆虐;Dropbox 宣布裁员 |极客头条

除了 Docker,我们另有哪些选择?

广州一小区推出电梯“神器”,业主点赞!

该电梯实时监控警报系统利用重量感应及红外线共同监测的原理, 能够精准识别出电梯内的电瓶车。一发声生问题又不是一般的事情,所以这个问题我觉得管理处做得很好,已经先走了一步。 目前,该小区内每栋楼均…