智能通信终端(二)

发布时间:2003-11-26 作者:王仁华 阅读量:

社会信息量的日益膨胀,带来了通信产业的迅猛发展,通信模式也随之日新月异。通信业发展到今天,正在逐步验证着“傻瓜”网与智能终端的通信模式,智能通信终端的市场已渐渐走热。虽然智能终端目前仍处于研制阶段,相信在不久的将来,它终将“飞”入寻常百姓家。
  本期讲述智能语音接口技术。上一期讲座已阐述信息化对现代通信的影响以及智能通信终端。下一期将继续本期未完的内容,并进一步讲述智能终端与语音门户。

  3 智能语音接口技术

  智能接口,又称人机接口,所追求的是使人和计算机在信息交互时能够像人和人之间通信一样方便、自然。在智能通信终端上建立一种拟人化的、和谐的人机交互环境,也是智能接口追求的一个重要目标。智能接口技术除涉及人工智能和计算机科学外,同信号处理、电子技术、语言学、认知科学,乃至现代心理学、神经生理学等都有密切的关系。目前主要研究课题有多媒体与虚拟现实、语音识别和合成、文字识别、计算机视觉和图像识别、自然语言处理、自动摘要及机器翻译等等。其中尤以涉及汉语和汉字的智能接口技术和应用,对中国信息化、智能终端的发展有重要的意义。在国家863智能计算机研究领域也受到特别的重视。由于语音是人类最自然的通信手段,人们信息交互有60%是通过语音通信来完成的,因此目前通信终端的主体也基于语音通信。

  3.1 语音识别

  让机器听懂人说的话,服从命令,为人类服务,这就是语音识别技术。实现语音识别是人类多年的梦想, 但是由于其技术上的复杂性,以及我们每个人的口音不同、发音方式不同,使得机器识别语音变得深不可测。随着近代计算机技术的迅速发展,在20世纪最后年代里,语音识别终于取得了一系列重要的突破,开始走出实验室,为人们服务。今天汉语语音识别已经突破了连续语音、 大词汇、非特定人识别的难关,成功地解决了汉语同音字、口音复杂等问题,实现了中文听写机,初步解决了中文输入难的问题。

  3.1.1 语音识别技术简介

  语音识别是对智能通信终端最有影响的技术之一。早期的语音识别是采用“模板法”来实现的,如图2所示。即对每一个识别基元(字或词)的语音波形数据,通过一定的信号处理方法提取其特征矢量构成特定的矢量有序集称之为“模板”(之所以要提取特征矢量,一是为了减少语音数据的存储量,二是为了通过某种变换尽可能抽取出能代表一个语音单元特征的信息)。在识别时把待识别的语音同样提取特征矢量后分别与所有模板相比较,在一定的失真度准则下,选择失真最小的模板序列输出,作为识别结果。


图2 基于模板匹配的语音识别原理框图

  这里有3个主要问题:一是“模板”的可变性,这是由语音信号本身具有的巨大可变性造成的。同一个字、同一句话,在不同条件(发音人、发音人的心理生理特征、环境等)下发音时,其波形是不相同的,甚至相差甚远,因而直接由语音波形提取的“模板”也是不同的,这就使得匹配时失去了“准绳”,目标不明。如果采用不同条件下的多个模板同时存储和匹配的方法,又会使存储量和计算量不可预料地恶性膨胀,这在大词汇量、非特定人识别的情况下更为突出;二是单元组合规则利用的“困难性”,在需要利用词法、句法知识的连续语音识别中,“模板法”往往显得无能为力;三是训练的“困难性”,这也主要体现在连续语音识别时提取模板必须事先划分基元上,这就大大增加了人工的工作量,同时也没有有效地改进“模板”方法,即保证模板的代表性随着训练量的增加而增大。上述所有问题决定了“模板法”只能在小词汇量、特定人、非连续语音识别上比较有效,而无法满足人们对大词汇量、非特定人、连续语音识别的需要。

  现代语音识别则采取统计识别的方法,识别流程如图3所示。


图3 连续语音识别系统流程

  • 信号处理
      包括端点检测和特征提取。端点检测是指从输入语音流中区分静音和语音,这是一个两类分类器问题,一般采用语音信号的能量和过零率等时域特征作为分类的参数;特征提取是指从语音数据提取出有效特征。语音的短时频谱特征能精确描述语音发音过程中的声道变化,常用的有线性预测倒谱系数(LPC)和MEL频率倒谱系数(MFCC),实验证明MFCC系数比LPC倒谱系数更符合人耳的听觉特性,特别是在有噪声和频谱失真的情况下,能更准确地描述语音模型,得到更高的识别率。MFCC系数主要反映语音的静态特征,语音信号的动态特征可以用静态特征的一阶差分谱和二阶差分谱来描述。这些动态信息和静态信息相互补充,能很大程度地提高系统的识别性能。语音的短时归一化能量也能一定程度地提高识别率。整个语音特征一般用MFCC参数、MFCC差分系数、归一化能量系数及其差分系数构成。由于语音信号的短时平稳性,特征参数都是按帧提取的,帧长取10ms左右。

  • 声学模型
      隐马尔科夫模型(HMM)是目前最成熟、最有效的语音识别模型。HMM从左到右的状态转移模型能很好地描述语音发音特性。语音信号是一个非平稳的随机过程,但它具有明显的短时平稳特性,而HMM模型从本质上将最适宜描述这类时变信号,其中的“状态”描述了声学特性相对稳定的语音段,而状态转移规律则描述了语音信号的时变过程,其中状态序列的隐含,避免了一系列人为分割语音信号的复杂过程,而且使模型中的状态与实际产生语音的发音机理相脱离,使得模型对语音信号的描述过程完全可以通过算法来自动完成。状态与语音特征矢量之间的对应使用概率分布表征,称为输出概率。按照输出概率分类,HMM模型又可分为不同的类型。
      所有模型的参数均通过使用Baum-Welch算法从大量实际的语音训练和数据训练获得。声学模型基本单元可以选择任意一种语音单元。对汉语来说,可以选择音素、声韵母、音节、词语作为模型单元。对不同的识别系统应该选择适合的单元,选择模型单元应满足下面3个原则:精确性、可训练性和可扩展性。
      一般小词汇量识别系统可以选择词为单元,保证精确性又具有可训练性;而大词汇量连续语音识别系统则应采用更小的声韵母或音素为单元,才能保证可训练性和可扩展性。

  • 语言模型
      声学模型在识别系统中的功能是对语音的识别(声学层面上),而识别音对应的汉字涉及对语法的识别(语言学层面上),这就需要语言模型。目前的语言模型大体分为两类:一类是基于语法定义的语言模型,另一类是基于统计的语言模型。基于语法定义的语言模型将识别器的可识别结果用一个有限语法网络表示,优点是识别搜索路径空间确定,识别率较高,缺点是语法严格,说话者不能自由组织语言,否则系统不予识别。所以这种语言模型适用于命令识别和简单对话系统。由于统计语言模型的鲁棒性强,大部分识别系统采用统计语言模型。

  • 识别算法
      在基于HMM框架的连续语音识别中,识别过程是从识别网络中搜索出最佳路径的过程。HMM模型中最基本的构成单位是声学模型中的状态以及状态之间的转移弧。这样,从状态出发逐层扩大至声学模型单元,再组成词、句。每一个句子是包括许多状态的复杂状态图。对于特定的词表和句法,所有可能出现的句子构成了一个更大的状态图(或称为状态空间)。 语音识别过程就是要根据一个输入语音特征矢量序列来确定一个最可能的句子。这就需要在此大状态图中搜索一条路径,根据声学模型和语言模型,该路径产生上述特征矢量序列的概率为最大,由路径就能确定句子中的每一个词。这一搜索过程运算量极大,在大词汇识别情况下全搜索几乎是不可能的,一般采用次最优的方法,例如帧同步Viterbi光束搜索算法。
      HMM在理论上具有完整的数学定义,有一系列有效的计算方法,包括一整套完善的最大似然参数估计法和有效的解码算法,使得HMM的训练和识别过程都可以完全自动地进行,也避免了在连续语音识别中对语音流的精确预分割;此外,HMM在系统建模上也非常灵活,可以自由地改变模型的结构、类型和大小,大到句子,小到音素和音子均可用不同状态树和拓扑结构的HMM来建模,也可把整个系统纳入一个统一的“HMM框架”中进行识别输出。所有这些优点使得HMM成为最有效的识别方法,成为目前在语音识别中占统治地位的主流方法。HMM几乎覆盖了语音识别的所有领域,从连续语音到孤立词,从特定人到非特定人,从大词汇量到小词汇量以及声调识别、说话人识别等等。
      上面介绍的是完整的连续语音识别系统。在有些小型智能通信终端中,如电话机、手机、手提电脑、PDA等,语音识别主要用于识别数字串、姓名或简单命令,那么系统可以简化。
      随着网络技术的进一步发展,电子商务也正在日渐流行。人们只需要坐在家中,通过向智能终端发布命令就可以实现网上购物。语音识别技术和电子商务的结合,将创造一种全新的交易方式。
      随着个人、移动通信的需要,通信终端正日趋小型化。各种掌上设备正进入人们的生活和工作,如手机、商务通、个人助理等。设想在这么小的终端设备上,键盘和显示屏愈来愈小,甚至没有键盘或只有简单的数字键,输入输出及各种操作都会变得异常困难。显然用语音方式操作是解决这类问题的最理想手段。其方便与自如是其他手段无法相比的。

  3.1.2 语音识别的发展方向

  智能通信的需求反过来又对语音识别技术提出了更高的要求。

  • 电话语音识别
      在高速数据信道和便携数据终端普及以前,我们最先利用的还是遍布在各个角落的传统语音电话信道和一般意义而言的电话终端,这就意味着需要识别经过整个电话信道而产生了某种畸变的语音信号。打电话时用户可能会处于各种嘈杂的环境,噪声背景下的语音识别也是要解决的问题。电话语音识别具有最迫切的市场需求,目前已成为国内外研究和开发的重点。

  • 语音识别的鲁棒性
      各种噪声、特别是移动电话所产生的编码和信道噪声是对识别原始语音信号的一大干扰,特别是此类干扰的发生很随机,因此,需要一种能对各种环境、信道噪声加以过滤或在识别过程中加以纠正的技术。由于服务建立在电话或其它移动通信终端基础上,用户群非常随机,特别是中国幅员辽阔,各地口音差异很大,因此需要建立普适度更高的模型或对不同口音能够自动适应,使系统具有较强的鲁棒性。

  • 口语语音识别
      当电话语音识别技术用于实现电话查询、自动接线以及一些专门业务如旅游信息服务等的操作时,电话语音识别的难度还包括对冗余信息的处理,因为人们的日常口语多数是比较自由的,会出现省略、重复等不符合语法的句子,或“哼、哈”等没有特定意义的语音。这些给语音识别带来了更大的挑战。

  • 多语种语音识别
      网络时代必然会涉及多种语言,例如语音识别用于大都市电话查询服务时,用户可能使用汉语普通话、广东话,或者英语进行查询,要求识别系统有多语种识别的能力。但是不同的语言有自己独特的一套发音和文法,汉语就是一种声调语言,有多音字问题,有自己独特的语法问题等。用一个系统要识别不同的语种并非易事。

  • 分布式语音识别
      一方面,信道噪声限制了语音识别的应用;另一方面,现有便携终端的计算存储能力还不足以实现本地的连续语音识别。在此基础上,分布式语音识别应运而生,其思想是在客户终端上做语音信号参数提取的工作,而只将参数传送到服务器端作进一步的识别。这种方案不仅解决了上述的问题,还有占用带宽窄、综合成本低等优点,但其前提是提取的参数必须标准化。

  3.2 语音合成

  语音合成技术是使电脑或通信终端具有类似于人一样的说话能力,是当今时代信息产业的重要竞争领域。和语音识别相比,语音合成的技术相对说来要成熟一些,是最有希望首先在智能通信终端中得到普遍应用并形成带动的一项关键技术。

  3.2.1 语音合成技术简介

  按照智能化程度的不同层次,语音合成也可分成3个层次:从文字到语音的合成(Text-To-Speech);从概念到语音的合成(Concept-To-Speech);从意向到语音的合成(Intention-To-Speech)。这3个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。不难想象,即使是按规则的文字到语音合成(TTS)也已经是相当困难的任务。为了合成出高质量的语音,除了依赖于各种规则,包括语义学、词汇、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题。图4显示了一个文语转换系统示意图。


图4 文语转换系统结构框图

  文语转换过程主要由两部分组成,先是通过文本分析将文字序列转换成音韵序列,再由语音合成器生成语音波形输出。

  • 文本分析
      旨在确定文本中哪些是词,哪些是短语、句子;每个字应该发什么音,怎么发,即它的音高、时长、轻重以及和谁连的比较紧、应停顿多少等韵律特征,一般由以下几个环节组成:
      (1)文本预处理,包括分句、字符集转换、特殊符号处理等,特殊符号处理是指对于文本中出现的除汉字以外的其它字符,如何给出其正确的发音信息(如拼音、节奏、词性等)。例如数字、英文字母、计量符号的处理等。
      (2)分词。汉语由于字和字之间没有明确分隔,缺乏形态上的分词标志,给正确的切分带来很大的难度,比如“人民生活水平”,其中“民生”“活水”也都是词。即使借助于词典,歧义也不可避免。在分词阶段附带要解决的其它问题还包括像未登录词处理、多音字处理等等。因此如何做到正确的切分,非常重要。
      (3)韵律分析,给出层次信息,字在句子中不同的位置,不同词性引起的节奏变化,不同的上下文环境产生的声调、音长、音强的变化等等。汉语是声调语言,韵律还有辨意的功能,因此韵律分析的正确与否对合成语音的自然度有重要的影响。
      文本分析涉及语言学处理、自然语言理解,以及一整套有效的韵律控制规则。传统的文本分析主要是基于规则的实现方法。但近年来随着机器学习和数据发掘技术的发展,也出现了基于数据驱动技术的文本分析方法。例如采用决策树或神经网络方法,从大量的数据中通过训练得到韵律模型,而后应用于韵律生成。

  • 语音合成器
      目前最流行的语音合成器是采用基音同步的重叠相加(PSOLA)方法来实现波形拼接(这里指的基音或基频是语音韵律特征中的音高或声调的物理表现参数,基频曲线变化直接导致声调变化)。PSOLA算法的基本思想是以语音信号的基音周期为分析对象,在基音同步的基础上对信号的声调和时长进行修改。PSOLA算法的提出,使语音合成向实用化迈出了重大的一步。
      然而通过信号处理的方法调整韵律特性终究会对音色有一定的损伤。即使是PSOLA算法,当韵律修正的范围变大时,音色也会有明显的下降。在90年代中期,在汉语语音合成中又提出了一种基于“听感量化”波形拼接方法。其出发点就是语音合成时尽量少动用合成器来调整韵律参数。在这个方法中,将实际语流中音节千变万化的音变情况进行听感上的量化归并,预先在音库中存放着所有汉语音节的“听感量化单元”。合成时根据前端给出的音韵信息由基元调用规则选出当前语言环境下各个音节所对应的“听感量化”单元;然后直接将所得“听感量化”单元拼接在一起(最多进行简单的能量调整和停延控制),便获得了相应于输入文本的连续语音输出。
      由于“听感量化”单元从原始发音中直接截取,避免了用语音合成器调整参数时对音质的损害,保证了合成系统具有接近自然发音的音质。采用该方法实现的文语合成系统,其自然度达到了用户可以接受的程度。
      TTS是现阶段比较成熟,并能为用户所接受的语音合成技术,有着重要的应用市场。当用户通过电话或手机从公共或专用的数据库中查询信息时,只有TTS技术自动实时生成语音才是最有效的方式。
      装备TTS技术的终端能够实时地将任意的数据文本转换成语音输出,使得数据通信和语音通信在终端一级上实现了交融,使得随时随地接受因特网上的信息有了可能。短消息服务、电子邮件等多数以文本方式提供的信息,可以用语音的方式输出,给终端用户带来极大的方便。

(待续)