机器人能否“说人话”?

2021-01-07 网络
浏览
[人工智能]机器人能否“说人话”?

往往在放下手机之后你才会意识到,电话那头的客服其实是个机械人;或者准确地说,是“一位”智能客服。

没错,今天越来越多的事情正在被交给人工智能手艺去完成,文本转语音(TTS,Text To Speech)就是其中异常成熟的一部分。它的生长,决议了今天我们听到的许多“人声”,是如此地真切,以至于和真人发声无异。

除了我们接触最多的智能客服,智能家居中的语音助手、可以服务听障人士的无障碍播报,甚至是新闻播报和有声朗读等服务,事实上都基于TTS这项手艺。它是人机对话的一部分——简朴地说,就是让机械说人话。

它被称为同时运用语言学和心理学的卓越之作。不外在今天,当我们赞美它的卓越时,更多的是因为它在在线语音天生中表现出的高效。

要提升语音合成效率固然不是一件容易的事。这里的关键是若何让神经声码器高效地用于序列到序列声学模子,来提高TTS质量。

科学家已经开发出了许多这样的神经网络声码器,例如WaveNet、Parallel WaveNet、WaveRNN、LPCNet 和 Multiband WaveRNN等,它们各有千秋。

WaveNet声码器可以天生高保真音频,但在计算上它那伟大的庞大性,限制了它在实时服务中的部署;

LPCNet声码器行使WaveRNN架构中语音信号处置的线性展望特征,可在单个处置器内核上天生超实时的高质量语音;但惋惜,这对在线语音天生义务而言仍不够高效。

科学家们希望TTS能够在和人的“交流”中,到达让人无感的顺畅——不仅是语调上的热情、亲热,或镇定;更要“毫无”延迟。

新的突破出现在腾讯。腾讯 AI Lab(人工智能实验室)和云小微现在已经率先开发出了一款基于WaveRNN多频带线性展望的全新神经声码器FeatherWave。经由测试,这款高效高保真神经声码器可以辅助用户显著提高语音合成效率。

英特尔的工程团队也介入到了这项开发事情中。他们把面向第三代英特尔至强可扩展处置器所做的优化举行了周全整合,并采用了英特尔深度学习加速手艺(英特尔 DL Boost)中全新集成的 16 位 Brain Floating Point (bfloat16) 功效。

bfloat16是一个精简的数据格式,与现在的32位浮点数(FP32)相比,bfloat16只通过一半的比特数且仅需对软件做出很小水平的修改,就可到达与FP32一致水平的模子精度;与半浮点精度 (FP16) 相比,它可为深度学习事情负载提供更大的动态局限;与此同时,它无需使用校准数据举行量化/去量化操作,因此比 INT8 更利便。这些优势不仅让它进一步提升了模子推理能力,还让它能为模子训练提供支持。

事实上,英特尔至强可扩展处置器本就是专为运行庞大的人工智能事情负载而设计的。借助英特尔深度学习加速手艺,英特尔志强可扩展处置器将嵌入式 AI 性能提升至新的高度。现在,此种处置器现已支持英特尔高级矢量扩展 512 手艺(英特尔AVX-512 手艺)和矢量神经网络指令 (VNNI)。

在腾讯推出的全新神经声码器FeatherWave 声码器中,就应用了这些优化手艺。