选择语言

AI语音识别使能5G智慧家庭

发布时间：2020-03-08 作者：顾泳飞　中兴通讯

随着5G移动和互联网技术的发展，人机交互的要求不断深入。无论是键盘还是触控交互，都远远不能与语音相比，语音才是人类沟通和获取信息最自然的方式。对家居设备的操控从普通的按键式遥控器，到蓝牙语音遥控器，发展到现在支持拾音功能的智能语音控制，语音技术将解放人类的眼睛和双手，成为最佳人机交互模式，服务于各种业务场景。

－融合信息类
人们日常生活中的信息查询，已经可以通过“动动嘴”的方式实现，语音搜索方式更加便捷，日益被用户所喜爱。比如，用户在出门前，可通过语音查询交通、路况、天气信息，还可通过远场语音机顶盒实现家人之间快速方便的视频电话，用户只需对远场语音机顶盒说“我要跟**视频通话”，语音机顶盒就能自动打开电视，调出视频通话客户端，在电话簿中选择对方号码，呼出视频通话。

－高清视音频娱乐类
用户可直接给远场语音机顶盒“下命令”，调出想看的内容，比如用户想看“成龙的电影”，只需说出“成龙的电影”，想要切换电视频道，也可以直接说“我要看东方卫视”等，操控更简便。
－生活提醒类
用户需要早起赶火车，只需说“给我设一个明天早晨7点的闹钟”，床头的智能语音闹钟就能与用户确认闹钟定时，并在第二天7点开启闹钟功能；用户也可设置多个提醒，例如，交水、电、煤等生活账单的日期、还信用卡的日期等。

－智能家居控制类
用户可以通过语音面板控制电视机的开启和关闭，通过语音开启电灯、窗帘等智能家居设备或通过语音设置开启时间或开启条件。
为了实现以上5G智慧家庭场景，AI智能语音技术必须要支持远场拾音、即唤即用、多轮对话交互、声纹识别等多种关键技术。

远场拾音技术

远场拾音主要采用麦克风阵列。麦克风阵列是由一定数目的麦克风组成，用来对声场的空间特性进行采样并处理的系统。使用麦克风阵列而非单个麦克风，是为了在用户距离智能语音终端较远时，依然能够接收到用户的语音指令。

麦克风阵列开始工作时，始终处于拾音状态，持续对声音信号进行采样、量化，进而对基本的信号处理，对采集语音信号进行更复杂的语音信号算法处理，得到干净的语音信号，传送到远端语音云平台，开始真正的语音交互流程。

麦克风阵列有线性、环形和球形状之分，一般使用环状或线性麦克风阵列，目前以6麦为主流方案，也有2、4麦产品。麦克风阵列同时匹配波束成形、噪声抑制、回声消除、混响消除、自动增益、声源定位等前端声音处理技术。

－语音检测（Voice Activity Detection，VAD）：VAD准确检测出音频信号的语音段起始位置，从而分离出语音段和非语音段（静音或噪声）信号。由于能够滤除不相干非语音信号，VAD不但能减轻后续处理的计算量，提高整体实时性，还能有效提高下游算法的性能。

－降噪：实际环境中存在着空调、风扇以及其他各种各样的噪声，通过算法降低噪声干扰，提高信噪比，降低后端语音识别的难度。

－回声消除（Acoustic Echo Cancellation，AEC）：AEC在音箱扬声器工作（播放音乐或语音）时，从麦克风中收集的语音中去除自身播放的声音信号。

－去混响处理：在室内，语音会被墙壁等多次反射，麦克风采集到的混响对于人耳完全不是问题，但是延迟的语音叠加产生掩蔽效应，需要算法对混响声音信号进行处理。

－声源定位（Direction of Arrival estimation，DOA）：声源定位是根据麦克风阵列收集的声音语，确定说话人的位置，用于方位灯的展示，增强交互效果。

即唤即用技术

唤醒模块是一个小型语音识别引擎，由于唤醒关键词识别目标单一，只需要较小的声学模型和语言模型，算法空间占用少，一般能够在本地实现。唤醒词的选择一般在3个字到5个汉字之间，4个字最佳，音节覆盖尽量差异大，尽量选择开口音，建议选择不常用词语。

多轮对话交互

连续交互是指用户语音唤醒智能语音后，可以连续多次与智能语音进行语音交互，无需再携带唤醒词，语音交互超过规定时间需要进行再次唤醒。
用户的输入经过自然语言理解（NLU）模块，进入对话管理系统，该系统识别出当前的对话状态（dialogue state），并确定下一步的对话行为（dialogue action），包含通用模型和领域模型，前者负责处理通用的交互逻辑，后者则处理特定领域的交互逻辑（见图1）。

对话状态包含持续对话所需要的各种信息，依据最新的系统和用户动作，更新对话状态，将上轮对话解析出的意图作为全局变量，带入到下一轮对话。

多轮对话对于自然的人工交互非常重要，用户期望将人与人之间的对话模式，应用在人与机器的对话之中。

声纹识别

进入语音交互时代，家庭语音控制的安全性尤为重要。声纹识别有两类，即说话人辨认（Speaker Identification）和说话人确认（Speaker Verification）。家庭场景的声纹识别是对说话人辨认过程，先对说话人的声纹进行建模，在语音交互时对说话人的声纹特征进行匹配，根据说话人角色不同，提供个性化的业务体验（见图2）。

分布式拾音

各个拾音器分布在家庭每个房间中，如何协调多个拾音终端协同工作，需要支持分布式拾音能力。各个拾音设备相互发现和组网，当多个设备被激活时，中控系统根据声源分布和定位，确定用户就近设备进行响应，避免多个设备被同时唤醒应答，同时中控系统根据声源分布定位，判断控制目标并发出执行指令（见图3）。

5G智慧家庭时代，AI语音终端将会以多种形态出现，比如房间里的嵌入式智能开关面板、智能音箱、智能闹钟、机顶盒、电视机以及家电设备等，更多的终端都将具备远场智能语音和家庭网络组网能力。5G智慧家庭将会通过全场景语音覆盖、全屋语音联动打通家庭中的不同应用场景，满足更多未来智能生活的需求。

本期相关文章

中兴通讯Access CDN方案，助力MEC大视频业务部署

TV变革浪潮席卷拉丁美洲

5G智慧场馆直播应用落地，远近高低随心看

5G赋能视频终端，革新用户体验

RTB广告，运营商5G时代的新商业模式

CDN加速部署，协同MEC边缘计算共同发展

5G下的视频应用创新

5G时代，大视频创新前行

8K业务的关键技术探讨

5G：期待中发展，质疑中生长