AI语音识别使能5G智慧家庭

发布时间:2020-03-08 作者:顾泳飞 中兴通讯 阅读量:

 

随着5G移动和互联网技术的发展,人机交互的要求不断深入。无论是键盘还是触控交互,都远远不能与语音相比,语音才是人类沟通和获取信息最自然的方式。对家居设备的操控从普通的按键式遥控器,到蓝牙语音遥控器,发展到现在支持拾音功能的智能语音控制,语音技术将解放人类的眼睛和双手,成为最佳人机交互模式,服务于各种业务场景。

-融合信息类
人们日常生活中的信息查询,已经可以通过“动动嘴”的方式实现,语音搜索方式更加便捷,日益被用户所喜爱。比如,用户在出门前,可通过语音查询交通、路况、天气信息,还可通过远场语音机顶盒实现家人之间快速方便的视频电话,用户只需对远场语音机顶盒说“我要跟**视频通话”,语音机顶盒就能自动打开电视,调出视频通话客户端,在电话簿中选择对方号码,呼出视频通话。

-高清视音频娱乐类
用户可直接给远场语音机顶盒“下命令”,调出想看的内容,比如用户想看“成龙的电影”,只需说出“成龙的电影”,想要切换电视频道,也可以直接说“我要看东方卫视”等,操控更简便。
-生活提醒类
用户需要早起赶火车,只需说“给我设一个明天早晨7点的闹钟”,床头的智能语音闹钟就能与用户确认闹钟定时,并在第二天7点开启闹钟功能;用户也可设置多个提醒,例如,交水、电、煤等生活账单的日期、还信用卡的日期等。

-智能家居控制类
用户可以通过语音面板控制电视机的开启和关闭,通过语音开启电灯、窗帘等智能家居设备或通过语音设置开启时间或开启条件。
为了实现以上5G智慧家庭场景,AI智能语音技术必须要支持远场拾音、即唤即用、多轮对话交互、声纹识别等多种关键技术。

远场拾音技术

远场拾音主要采用麦克风阵列。麦克风阵列是由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理的系统。使用麦克风阵列而非单个麦克风,是为了在用户距离智能语音终端较远时,依然能够接收到用户的语音指令。

麦克风阵列开始工作时,始终处于拾音状态,持续对声音信号进行采样、量化,进而对基本的信号处理,对采集语音信号进行更复杂的语音信号算法处理,得到干净的语音信号,传送到远端语音云平台,开始真正的语音交互流程。 

麦克风阵列有线性、环形和球形状之分,一般使用环状或线性麦克风阵列,目前以6麦为主流方案,也有2、4麦产品。麦克风阵列同时匹配波束成形、噪声抑制、回声消除、混响消除、自动增益、声源定位等前端声音处理技术。

-语音检测(Voice Activity Detection,VAD):VAD准确检测出音频信号的语音段起始位置,从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干非语音信号,VAD不但能减轻后续处理的计算量,提高整体实时性,还能有效提高下游算法的性能。

-降噪:实际环境中存在着空调、风扇以及其他各种各样的噪声,通过算法降低噪声干扰,提高信噪比,降低后端语音识别的难度。 

-回声消除(Acoustic Echo Cancellation,AEC):AEC在音箱扬声器工作(播放音乐或语音)时,从麦克风中收集的语音中去除自身播放的声音信号。

-去混响处理:在室内,语音会被墙壁等多次反射,麦克风采集到的混响对于人耳完全不是问题,但是延迟的语音叠加产生掩蔽效应,需要算法对混响声音信号进行处理。

-声源定位(Direction of Arrival estimation,DOA):声源定位是根据麦克风阵列收集的声音语,确定说话人的位置,用于方位灯的展示,增强交互效果。

即唤即用技术

唤醒模块是一个小型语音识别引擎,由于唤醒关键词识别目标单一,只需要较小的声学模型和语言模型,算法空间占用少,一般能够在本地实现。唤醒词的选择一般在3个字到5个汉字之间,4个字最佳,音节覆盖尽量差异大,尽量选择开口音,建议选择不常用词语。

多轮对话交互

连续交互是指用户语音唤醒智能语音后,可以连续多次与智能语音进行语音交互,无需再携带唤醒词,语音交互超过规定时间需要进行再次唤醒。
用户的输入经过自然语言理解(NLU)模块,进入对话管理系统,该系统识别出当前的对话状态(dialogue state),并确定下一步的对话行为(dialogue action),包含通用模型和领域模型,前者负责处理通用的交互逻辑,后者则处理特定领域的交互逻辑(见图1)。


对话状态包含持续对话所需要的各种信息,依据最新的系统和用户动作,更新对话状态,将上轮对话解析出的意图作为全局变量,带入到下一轮对话。

多轮对话对于自然的人工交互非常重要,用户期望将人与人之间的对话模式,应用在人与机器的对话之中。

声纹识别

进入语音交互时代,家庭语音控制的安全性尤为重要。声纹识别有两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。家庭场景的声纹识别是对说话人辨认过程,先对说话人的声纹进行建模,在语音交互时对说话人的声纹特征进行匹配,根据说话人角色不同,提供个性化的业务体验(见图2)。


分布式拾音

各个拾音器分布在家庭每个房间中,如何协调多个拾音终端协同工作,需要支持分布式拾音能力。各个拾音设备相互发现和组网,当多个设备被激活时,中控系统根据声源分布和定位,确定用户就近设备进行响应,避免多个设备被同时唤醒应答,同时中控系统根据声源分布定位,判断控制目标并发出执行指令(见图3)。


5G智慧家庭时代,AI语音终端将会以多种形态出现,比如房间里的嵌入式智能开关面板、智能音箱、智能闹钟、机顶盒、电视机以及家电设备等,更多的终端都将具备远场智能语音和家庭网络组网能力。5G智慧家庭将会通过全场景语音覆盖、全屋语音联动打通家庭中的不同应用场景,满足更多未来智能生活的需求。