智能时代销量领先的代表作是小度吗?

智能时代的到来,最重要的是与人类相关的智能产品落地体验,给人类可以带来什么?

null

人要跟智能音箱进行对话,第一道关卡便是语音唤醒,因而语音唤醒对于后续的整个用户体验而言,至关重要。

然而在智能音箱这一远场语音识别载体中,技术本身以及外部环境对于语音唤醒质量的高低,有着非常直接的影响。

例如当外部噪音很大时,误唤醒等问题就非常突出了。

针对这些挑战和技术难点,百度首先从算法层面实现了语音唤醒技术的突破,即将误唤醒的控制由对着测试集手工调节变成了海量数据训练驱动的过程,并具体从两个方面提升了模型的建模能力:

第一,利用大量容易获得的无标注负例数据,以及有限的有标注正例数据,样本的描述和挖掘方法、正样本的加噪扩充以及构造海量的训练样例;

第二,探索新的模型学习策略,采用聚焦学习的方法,让有限体积的模型能够从海量的数据中高效地学习有用的知识,同时简化系统的流程。

不仅如此,百度还直接从唤醒技术的维度对小度智能音箱的语音唤醒功能进行优化和改进,研发出了一套纯端到端的声学模型/决策模型的二级唤醒技术,能够兼顾高召回率和极低的误报率。其中,声学模型还采用粗粒度的唤醒词音节作为建模单元,引入海量例数据优化,利用唤醒词音节尖峰搜索代替了维特比解码,大幅度提高了声学模型的检出效果;而决策模型则采用了深层卷积网络,可对唤醒词进行整词置信估计,同时实现了高唤醒召回、低误报率和较低的资源占用。

在智能音箱的连续交互能力上,百度为小度智能音箱研发的全双工免唤醒能力的表现,非常出色。这项能力组合应用了语音语义联合的尾点检测技术、全双工语音识别技术、置信度技术和语音语义一体化技术,在实现“一次对话,多轮交互”的同时,还能快速响应,并良好地区分用户交互意图。

实际在连续交互能力上,国外早已有 Google home 智能音箱实现了 Continued Conversation 的功能、Amazon echo 智能音箱实现了 Follow Up的功能,国内亦有小雅音箱可实现多次交互功能,但这些,都不是完全意义上的全双工连续交互。

百度,则是首家在智能音箱行业应用全双工连续交互技术的企业。

去年初,百度发布的 “深度尖峰技术Deep Peak 2 模型”在行业内引起的广泛关注,而百度智能音箱在该模型的加持下,无论是在解码速度还是语音识别的效率和准确性上,都已实现了行业领先。

Deep Peak 2 模型,其全称为基于 LSTM 和 CTC 的上下文无关音素组合建模,该模型通过声学模型学习和语言信息学习相分离的训练方法,使用音素组合来保留最重要的音素连接特性,从而避免了上下文无关建模时的过拟合问题。

进一步讲,该模型基于音节建模的核心优势在于,音节是人发音的逻辑单元,轨迹明确,是存在完整轨迹的最小单元,而不同音素之间的分界线非常模糊,容易让网络“困惑”。同时,音节的时长比状态和音素都要长,相比更不易受背景噪声、信道、场景、说话人等音素的影响,因此 Deep Peak2模型对数据多样性的兼容性更好。同时,比起粒度更大的建模单元,例如词,建模单元的数目适中,其建模单元也不会过大,能显著带来更快的解码速度。

后续,百度更针对现实场景中对于中英文混杂语音识别的需求,研发了基于Deep Peak2的中英文统一建模的音节模型,采用上下文无关的音节对中英文统一建模的方法,语音系统可通过中英文系统识别语音指令,并直接输出中英文识别结果和中文识别结果,融合后返回给用户。

智能语音作为AI 领域相对比较成熟的细分方向,近年来在产品落地方面也都走在其他技术的前面。这些技术具体落地到某个具体场景或特殊场景中时,面临的挑战依旧巨大。如何不断优化智能语音技术,并实现技术的大规模产品落地,依旧是该领域需要大力探索的主题

打开APP阅读更多精彩内容