揭秘Siri,苹果发布论文阐释语音助手设计想法

2020-02-06 网络
浏览
[人工智能]揭秘Siri,苹果发布论文阐释语音助手设计想法

就多使命处置惩罚、多言语辨认等问题,苹果在论文中给出了本身差别的主意。

近来,苹果宣布了一系列论文来阐释语音助手的重要工作机理,公然揭秘Siri,向业界贡献了本身在设想上的差别主意。

在第一篇论文中,苹果就语音助手中的多使命处置惩罚问题举行了阐释,它指出在Siri中,叫醒处置惩罚平常须要两个步骤:AI起首必需肯定输入音频中的语音内容是不是与触发短语的语音内容婚配(语音触发检测),然后必需肯定措辞者的语音是不是与一个或多个注册用户的语音相婚配(措辞者考证)。平常要领是将两项使命离别来处置惩罚,苹果则以为可以用一个神经网络模子同时处理两项使命,同时它示意,经由考证,该要领各方面机能可以到达预期。

在该论文中,研讨人员给出了模子示例。他们在包括16000小时带解释样本的数据集合练习了基于两种思绪下设想的模子,个中5000小时的音频带有语音标签,其他均只要扬声器标签。比拟于平常练习模子去猎取多个标签的思绪,苹果经由过程将差别使命的练习数据举行级联来练习多个相干使命的模子。效果发明,在机能表现雷同的情况下,苹果新提出的模子反而更适合运用,它可以在两个使命之间同享盘算,大大节省了装备上的内存空间,同时盘算时间或等待时间以及所斲丧的电量/电池数目都将下降。

在另一篇论文中,苹果还引见了多言语演讲场景的演讲者辨认体系设想——学问图谱辅佐听写体系决议计划。以声学子模子为例,它可以基于语音信号传输陈迹来举行展望,而且其上下文感知的展望组件斟酌了种种交互上下文信号,个中上下文信号包括有关发出敕令的前提信息、已装置的敕令言语环境、当前挑选的敕令言语环境以及用户在发出要求之前是不是切换敕令言语环境的信息。

效果显现,这一设想的上风在于,它们可以在语音信号太短而没法经由过程声学模子发生牢靠展望的情况下供应协助。

另外,苹果还提出了一项补充研讨,减缓毛病触发问题,即疏忽不适合语音助手(Siri)的语音。基于图结构设想AI模子的思绪,研讨人员提出了一种图神经网络(GNN),个中每一个节点都与标签相连。效果显现,该模子减少了87%的毛病触发。