原创 陈根:ZeRO-Offload——拯救大模子高昂用度的良方_科技新闻

2021-03-01 网络
浏览
[科技新闻]原创 陈根:ZeRO-Offload——拯救大模子高昂用度的良方_科技新闻

原题目:陈根:ZeRO-Offload——拯救大模子高昂用度的良方

文/陈根

去年,OpenAI的GPT-3在外网走红。GPT-3作为著名人工智能科研公司 OpenAI 开发的文字天生人工智能,以天文数字级别的1,750亿参数目引发惊动。

GPT-3是迄今为止最壮大的语言模子,重大的参数目也让GPT-3险些无所不能,包罗答题、翻译、写文章,甚至是数学盘算和编写代码。由GPT-3所写的文章险些达到了以假乱真的境界,在 OpenAI 的测试中,人类评估职员也很难判断出这篇新闻的真假,检测准确率仅为12%。

, ,

然而,GPT-3类似人类的输出和惊人的通用性只是优异手艺的效果,而不是真正的伶俐。GPT-3的智能是天文数字级别的参数目和运算的叠加。可以说,大规模模子的训练只是少数需要庞大模子重构和昂贵GPU集群的人的游乐场。对于许多缺少足够经费的通俗研究职员来说,训练这些大规模模子只能“纸上谈兵”。

克日,来自微软、加州大学默塞德分校的研究者提出的名为“ZeRO-Offload ”的异构深度学习训练手艺,或将拯救这一“缺少足够经费”的窘况——ZeRO-Offload可以在单个 GPU 上训练拥有 130 亿参数的深度学习模子,让通俗研究者也能着手大模子的训练。

简朴来说,ZeRO-Offload 是一种通过将数据和盘算从 GPU 卸载到 CPU,以此削减神经网络训练时代 GPU 内存占用的方式,其使用方式也相对简朴,只需要在DeepSpeed中设置完毕后,使用 ZeRO-Offload ,然后修改一些标志和配置文件就可以。

与 Pytorch 等盛行框架相比,ZeRO-Offload 将可训练的模子规模提升了 10 倍,而且不需要数据科学家对模子做出任何改变,也不会牺牲盘算效率。

原创 月球“土特产”首次公开亮相,就问能种菜吗?

它们中有的重新返回了地球,比如黑猩猩;有的在太空中就被人类消灭,比如宫保鸡丁、鱼香肉丝和炸鸡;也有的就此留在了太空之中,比如特斯拉的汽车、飞鹤的铭牌、携带着地球人信息的金色唱片。 各个国家的企业开始…