智能通信终端(三)

发布时间:2003-11-26 作者:王仁华 阅读量:

人们对信息服务提出了更高的要求,希望提供声、像、图、文并茂的交互式多媒体信息服务,由此智能通信终端得到了快速发展。智能通信终端的推出需要基于语音的互联网门户--“语音门户”的同步发展和成熟。本刊前2期已阐述了信息化对现代通信的影响、智能通信终端和智能语言接口技术。最后这期将继续介绍智能语音接口技术,并进一步讲述智能终端与语音门户。

  3.2.2 语音合成发展方向

  目前语音合成有高自然度语音合成、芯片级语音合成、多语种合成、分布式语音合成、口语化的语音合成等发展方向。

  (1)高自然度语音合成
  为了使基于智能通信终端的服务更加人性化,让交互更加自然,高自然度的语音合成仍然是主要追求的目标。近年来基于语音库的合成方法被证明可以获得高自然度的合成语音。在这个方法中,合成语音的单元选自一个很大的自然语流语音库,只要精心设计语音库,使它能有效地包含各种可能出现的语言现象,并找到正确地选取所需语音单元的手段,无疑将能得到高自然度的合成语音。但是语音库究竟应该包含哪些语音现象,语音单元应该怎么选取,都还有许多问题需要解决。

  (2)芯片级语音合成
  为了在越来越多的微型终端中集成语音合成技术,必须确保在芯片级硬件平台支持水平上能够实现语音合成的完整应用,因此无论是在语音库尺寸、算法复杂度还是在文本分析规模和资源消耗上,都必须具有小型化、轻量级的特征。如果基于语音库的合成被称为重量级语音合成,需要很大的存储空间,那么,如何提高轻量级语音合成的高自然度,则更加任重而道远。

  (3)多语种合成
  在现实社会信息条件下,很多的内容都是以不同语种词汇、甚至短句互嵌的形式出现的,例如,在电子邮件和网上消息里中文中经常会夹带着英语单词,而传统的多系统分流技术又存在发音人发音不一致、衔接差等问题,因此同一系统内混合处理、多语种合成是一个实际的需要,特别是在中、英文混读方面有很多工作要做。

  (4)分布式语音合成
  在基于网络应用特别是在客户机/服务器的典型模式下,终端的轻量级实现与服务端的高质量、重量级实现必然存在矛盾,加上信道、处理资源与用户体验多方面的综合影响,语音合成的分布式实现呼之欲出。分布式语音合成技术将传统的语音合成处理环节分解为标准化的实现模块,并将其间数据传输格式形成标准,从而为网络条件下非对称应用提出一个高性价比的解决方案。

  (5)口语化的语音合成
  语音合成中与自然度相对应的就是表现力,为了在对话模式中体现出更多的人性化,一般的疑问、感叹、强调等特征需要得到体现。一方面,需要合成算法能够表现出这些语言的声学特性;另一方面,必须具有一套在文本上描述所需表现力的标注体系。

  3.3 自然语言理解

  语音识别与语音合成都离不开自然语言理解。语音识别中的音/字转换和语音合成中的字/音转换的正确率都取决于对语言理解的深度。从智能通信终端的应用看,有时系统不仅要正确识别用户的发音,而且要理解它,然后执行相应的命令。例如用户通过语音订机票,要求“订1张5月1日去深圳的头等舱机票”,当语音识别出这句话后,系统还要明白用户要求的旅行时间是“5月1日”,目的地是“深圳”,舱位等级是“头等舱”等等,实际上系统还会希望明确是哪一次航班,才能完成预订。这里都要用到自然语言理解。此外系统还需要产生合适的回答,比如反问、反馈信息(例如是否有票,有没有折扣价等)给用户。这就会涉及自然语言生成,这是语音合成的更高一级阶段,和自然语言理解更是密不可分。

  随着Internet迅速扩张,大量的信息犹如潮水般涌来,现阶段信息的主要载体仍然是自然语言,人们渴望发展自然语言信息处理技术以实现文本自动分类、文献检索、信息提取、语言翻译、自动文摘、自动勘校等。自然语言理解的任务是建立一种计算模型,这种计算模型能够像人那样理解自然语言,并建立模拟人脑语言感知过程的理论模式。为了使智能通信终端能够做到口语理解和文字理解并及时作出响应,必须做到语法与语义相结合,深入研究并解决有关知识(特别是模糊知识)的表达与利用的问题。人机对话、机器翻译、电话翻译、智能检索、自动摘要等都与自然语言理解的突破密切相关。自然语言理解在智能通信终端中的应用还包括:自然语言查询处理提供各种类型的相似性匹配、或然性匹配,并返回按等级排列的检索结果;矫正利用语音识别自动生成的脚本中的错误;影像标题生成和摘要创建(如略览版的生成)等等。

  几十年来自然语言理解的发展主要围绕着自然语言的表达和处理模式,以及自然语言知识的表示、获取和学习,但是一直没有取得重大的突破。传统的基于文法规则的句法和语义分析方法在领域和词汇量受限的自然语言理解上取得了相当的成功,但很难实用于对不受限制的语句的理解。这是因为自然语言的各种语言现象无法用有限的规则来表述。而采用统计的方法,即通过对大量的语料统计来实现自然语言理解的方法,如二元语言模型、三元语言模型等非常实用,是目前语音识别和语音合成中的主流方法(虽然它不是建立在自然语言理解的基础上)。自然语言理解是当今最富有挑战性的技术之一。

  4 智能终端与语音门户

  4.1 简介

  在当今飞速发展的信息社会,移动与互联已经成为不可阻挡的潮流,越来越多的人们要通过网络来优化自己的生活。

  然而,人们在通过计算机上网的同时,也越来越感到这种方式受到时间、地点等诸多因素限制,很难做到信息的及时获取。人们希望通过随处可见的通信终端得到自己所需要的信息。目前,像160等传统的声讯服务台,采用话务员人工提供信息服务的方式,不仅成本昂贵,而且由于工作繁重容易导致接听人员服务水平下降。而通过如168等自动声讯服务方式,虽然也可以获取一些信息,但是由于很多信息无法用按键输入表示,因而许多具体的应用不是难以实现,就是在实现时由于多级菜单过于繁琐使用户感到不便。而繁多的声讯台号码也让使用者在急需服务时,往往一时找不到所需的号码。

  由于以上原因,人们越来越希望可以通过移动电话等通信终端设备来实现快速便捷的交流,即通过移动电话等通信终端设备接入网络并操纵远程的信息源以得到信息或进行电子化交易。交谈式语言是人类最自然的交流方式,通过语音进行浏览和接入互联网一直是人类的追求目标。目前,采用拨号接入网络的过程通常需耗时数十秒,而通过语音接入所需的时间只有短短几秒,因而通过语音界面,无疑将大大提高接入速度。另外,这种语音技术将令使用者无论在何时、何地,都可以利用手中的通信终端设备轻松接入网络,得到所需信息或购买商品及服务。更重要的是,这种方式将大大提高商业自动化程度,降低企业的运营成本,改善服务质量,使商务活动更加便捷。

  语音门户(voice portal)的出现,满足了人们这些需要,为互联网诠释出全新的涵义。语音门户是指基于互联网平台,应用语音识别、合成和转换技术,为固定电话和移动电话用户提供用语音访问互联网并获取网上信息的门户,这也是全球互联网发展的一个最新趋势。语音门户融合了语音、CTI、Web、电信、计算机及网络等技术,构筑出了新一代的语音上网平台,将使更多的用户能够通过各类通信终端快速接入互联网,为企业带来新的业务增长点。 从技术的角度看,近几年来,随着自动语音识别(ASR)、文本转语音(TTS)、口语对话等人机交互技术、信息处理技术的发展,以及像语音浏览器、嵌入式语音浏览器等Voice Web技术的成熟,再加上移动用户终端种类与功能的快速增加,使基于语音的互联网门户??“语音门户”在通信终端中的应用有了可靠保证。

  4.2 分布式语音处理

  4.2.1 分布式语音识别

  在智能通信终端中,语音识别的首要目标是使我们所有人不用敲击或远离键盘即可轻松访问大部分计算机服务和通信系统。分布语音识别(DSR)技术采用客户机/服务器方法,整个处理过程分布于终端(如手机)和网络的两端。终端执行语音特征参数提取任务,是语音识别系统的前端。提取的特征参数通过数据信道传输至远程的后端识别器。这样,传输信道不影响识别系统性能,信道不变性的目的得以实现。

  因特网上的分布式语音识别是由呼叫中心发展而来,现在正走向提供基于因特网的服务,分布式语音识别技术已经在基于包交换的 VoIP 网络进行了测试。

  4.2.2 分布式语音合成

  在基于网络应用特别是客户机/服务器典型模式下,终端的轻量级实现与服务端的高质量、重量级实现之间必然存在矛盾,加上信道、处理资源与用户体验等多方面的综合影响,语音合成的分布式实现把传统TTS的处理环节分解成为了标准化的实现模块:文本分析模块、语音合成模块。文本分析模块涉及词典、分词、各种语言学处理,都要占用较大的资源,因此可以放在服务器端实现,即经过处理后形成音韵序列再传送到终端上去;语音合成模块则可以放在终端上实现。由于音韵序列基本上由符号数据组成,与直接传送文本数据占用的信道带宽差不多,不影响传输性能,但却使终端摆脱了文本分析的压力,降低了成本。当然标记语言和数据传送的格式必须标准化,才能得到推广。

  4.3 语音浏览器

  语音浏览器(Voice Browser)相当于IE或是Netscape Navigator,不同的是它是通过语音的方式浏览VXML内容(VXML即Voice XML是基于XML国际标准的语音可扩展标识语言,它像HTML定义图形化网页界面一样定义了语音界面),并且通过Transcoder服务器还可以直接浏览网上HTML格式的内容。它主要包括Voice XML服务器、电话语音接入服务器、TTS/ASR资源服务器、Transcoder服务器。Voice XML服务器运行Voice XML解释器与对话管理器,按照VXML页面提供的内容控制语音及电话资源,和用户完成交互。这些资源包括语音识别、语音合成、音频录音、按键音以及电话网络接口。呼叫者一般通过公众交换电话网(PSTN)与Voice XML服务器交互,也可以通过其他网如PBX或VoIP信息包与Voice XML服务器交互。Transcoder服务器主要负责将Internet上其他标记语言内容转换为VXML页面内容,使得用户通过电话访问普通Web站点得以实现。语音浏览器(Voice Browser)的概念即是希望使普通电话作为浏览器终端,通过自然语言交互的方式取得相关的定制信息服务或Internet上发布的Web信息内容。通过电话终端与服务器端的语音接入、ASR/TTS、VXML 服务器以及各种Transcoder,构成了相当于IE的浏览器,是实现语音上网工程的核心组成部分。

  因为人们从小到大都是用语言进行交流,所以语音接口是一个非常自然的人机交互接口。现在人们使用固定电话和蜂窝电话时并没有用上Voice Browser技术。一些Voice Browser设备可能有小屏幕,像移动电话和掌上电脑那样。但是在那样小的屏幕上用键盘输入不是一件令人愉快的事情。同样在那样小的屏幕上阅读信息也不是一件轻松的事情。这时Voice Browser就体现出了它的优越性。

  现在人们上网主要通过台式计算机和手提电脑来上网,虽然有了WAP协议,手机也可以上网浏览,但是很不方便。另外现在上网还需要计算机知识,对于发展中国家的大多数人来说,门槛过高。而应用Voice Browser可以使我们轻松地用各种设备如电话、电视等一切电子或电气设备走进互联网。在将来,Voice Browser还可以支持其他的模式和媒体,例如用笔、图像和传感器作为输入,用活动图像和激励控制作为输出。语音和笔输入可能适合我们亚洲用户,因为我们所说的语言并不是与QWERTY键盘一致的。一些Voice Browser也是便携的,这样他们可以在家、办公室、路上等任何地方使用,所以网上信息对许多听众来说是随时可得的,特别是对那些有电话或移动电话的用户更是如此。语音浏览器(Voice Browser)同时可为盲人或需要访问Web但是手和眼睛却要干其他事情的用户提供方便的实用接口,可使盲人用户获得和正常人一样的工作空间。

  同时语音浏览器可以跨越各种平台,像电脑、电视、电话(包括移动电话)等,使人们可以随时随地获取所要的网上信息,并用语音表达出来。随着其中各项技术的发展、成熟和完善,这个市场将会迅速发展起来。

  4.4 嵌入式语音浏览器

  除了传统固定电话用户,迅速增长的移动电话用户是系统的另一大用户资源,因为,随着终端处理能力的加强,完全在终端的嵌入式语音浏览器和终端/服务端协同的分布式语音浏览器也将成为智能通信终端的一个重要组成部分。

  嵌入式语音浏览器支持HTTP或者WAP等其他传输协议,支持HTML、JavaScript、扩展XML、Voice XML等标记语言,可以完成网页的浏览功能;语音嵌入式浏览器适合在非PC的嵌入式信息设备中存在,运行并完整实现通信传输协议、标记语言所规定的功能,能够根据嵌入式设备的多样性需要而方便地进行裁减和修改,并满足信息设备使用者对获取文字、图像、声音、视频等信息的需求。语音嵌入式浏览器可以广泛应用到各种非PC设备或通信终端,如电视上的机顶盒、互联网电视(iDVD、iSVCD、iVCD)、交互式数字电视、手持上网设备(移动电话、掌上电脑、个人数字助理等)、互联网电话、网络终端、网络游戏终端、电子图书阅读器、公共信息查询系统、汽车电子信息查询系统、飞机电子信息服务系统等,赋予了这些终端设备上网和丰富的信息交互功能。

(续完)