定点ＤＳＰ在数字语音通信中的应用

发布时间：2005-03-20 作者：沈漫源Shen Manyuan 徐佩霞Xu Peixia 阅读量：

自从１９８２年ＴＭＳ３２０１０ＤＳＰ芯片问世以来，德州仪器公司已相继推出了Ｃ１Ｘ、Ｃ２Ｘ、Ｃ５Ｘ、Ｃ５４Ｘ等定点ＤＳＰ和Ｃ３Ｘ、Ｃ４Ｘ等浮点ＤＳＰ以及ＴＭＳ３２０Ｃ８Ｘ多处理器ＤＳＰ。ＤＳＰ独特的系统体系结构、硬件密集型方案和灵活的处理指令，使其具备强大的数字处理功能，在数字语音通信和多媒体通信中得到了广泛应用。其中，Ｃ５４Ｘ系列是定点ＤＳＰ中的最新一代芯片，性能尤为突出。

１Ｃ５４Ｘ定点ＤＳＰ系列的体系结构和特点

Ｃ５４ＸＤＳＰ系列包括Ｃ５４１、Ｃ５４２、Ｃ５４３和Ｃ５４８等几种芯片，它们有共同的ＣＰＵ结构，但片内存储器和外设接口不同。同前几代芯片相比，它们不但增强了处理能力（达５０ＭＩＰＳ或６６ＭＩＰＳ的运算能力），而且降低了功耗（可提供３种掉电低功耗工作方式）。以下简要介绍其体系结构，它包括：

（１）总线结构

Ｃ５４Ｘ的主要总线分为数据总线、地址总线两种，每种有４组，共８组总线：程序总线（ＰＢ），３组数据总线：ＣＢ、ＤＢ和ＥＢ，以及它们的地址总线：ＰＡＢ、ＣＡＢ、ＤＡＢ、ＥＡＢ。Ｃ５４Ｘ能够在一个周期内同时生成两个数据地址，从而能够同时读取两个操作数。

（２）片内存储器

Ｃ５４Ｘ存储器包括３部分地址空间：程序存储器、数据存储器，以及Ｉ／Ｏ地址空间。存储器包括ＲＡＭ和ＲＯＭ。ＲＡＭ有两类：在一个周期内能访问两次的ＤＲＡＭ和一个周期内访问一次的ＳＲＡＭ。以Ｃ５４８为例，其片内包含２ｋｂｙｔｅ的程序ＲＯＭ、８ｋｂｙｔｅ的ＤＲＡＭ和２４ｋｂｙｔｅ的ＳＲＡＭ。大量的片内存储器使复杂的语音压缩编码算法能全部载入片内运行。这既提高了系统的性能，也简化了硬件设计和接口。

（３）ＣＰＵ

Ｃ５４Ｘ系列的ＣＰＵ包含一个４０位的算术逻辑部件（ＡＬＵ）、两个４０位的累加器、一个桶状移位器、一个１７×１７位的乘法器和一个４０位专用的非流水线累加器，以及比较、选择、存储单元（用于Ｖｉｔｅｒｂｉ译码）和数据地址、程序地址产生单元。Ｃ５４Ｘ能够在一个时钟周期内完成两个３２位操作数的算术运算。

（４）片上Ｉ／Ｏ接口

Ｃ５４ＸＤＳＰ在片上集成了以下外围接口：串行通信口（同步串口、带缓冲串口、时分复用串口）、可编程定时器、标志输入／输出管脚、主从处理器接口（ＨＰＩ）、可编程等待状态产生器。

Ｃ５４Ｘ系列芯片的体系结构有高度的并行性，能够在一个指令周期中，产生下一条指令地址，取指后修改两个地址指针，执行一个计算，并通过串口接收或发送数据。而为了充分利用程序的并行性，该系列指令集中有专门指令，特别适于滤波、卷积、相关等数字信号处理方面的应用。

２应用Ｃ５４Ｘ芯片实时实现语音编解码系统

Ｇ．７２９协议是ＩＴＵ－Ｔ制定的８ｋｂｉｔ／ｓ语音压缩编码协议，由于Ｇ．７２９在中低比特率提供了令人满意的语音质量，再加上其优良的抗噪声性能，这就使Ｇ．７２９协议在数字移动通信、数字卫星通信和多媒体通信等方面有着广泛的应用前景。

我们已在单片Ｃ５４８ＤＳＰ上实现了Ｇ．７２９的编解码功能，为全双工低比特率语音通信提供了实用模块。Ｃ５４８是系统中唯一的ＣＰＵ，它负责启动时程序的装载、语音数据的输入输出以及Ｇ．７２９的压缩编解码等等，该系统的原理。

仅需３片芯片：ＥＰＲＯＭ、ＣＯＤＥＣ和Ｃ５４８就能够实现全双工的Ｇ．７２９语音压缩编解码。Ｃ５４８提供的强大的系统接口能力，使硬件设计十分简洁。Ｃ５４８在启动时将ＥＰＲＯＭ中的程序装入Ｃ５４８内部的程序和数据存储器中，并从第一条指令开始执行。Ｃ５４８通过串口与ＣＯＤＥＣ接口，负责数模转换。

系统软件主要包括两大部分：Ｇ．７２９编解码模块以及调度和接口模块。下面就这两部分进一步给予说明：

（１）编解码模块

该模块充分利用Ｃ５４Ｘ的优良性能，是实现ＩＴＵ－ＴＧ．７２９全部功能的ＤＳＰ核心模块，已单独形成一个Ｃ５４Ｘ系列库，可与其它Ｃ５４Ｘ系列模块相连。

（２）调度和接口模块

在该模块中，我们采用了双缓冲结构，以满足实时编解码的需要。程序中设置了ｉｎｐｕｔ＿ｂｕｆ，ｏｕｔ-ｐｕｔ＿ｂｕｆ，ｃｏｄｅ＿ｂｕｆ和ｄｅｃｏｄｅ＿ｂｕｆ４个缓冲区。其中ｉｎｐｕｔ＿ｂｕｆ为语音数据存放的缓冲区，每采集满８０个样点（１０ｍｓ）数据时，把它复制到编码缓冲区（ｃｏｄｅ＿ｂｕｆ）中，并调用编码程序。ｄｅｃｏｄｅ＿ｂｕｆ为解码缓冲区，当解码器利用编码器的输出得到重建语音时，解码结果存放在该缓冲区内。ｏｕｔｐｕｔ＿ｂｕｆ为Ｄ／Ａ转换的缓冲区，把缓冲区内数据按照８ｋＨｚ的频率传送至Ｄ／Ａ转换输出。当ｏｕｔｐｕｔ＿ｂｕｆ中的所有数据用尽时，把当前的ｄｅｃｏｄｅ＿ｂｕｆ中的重建语音复制到ｏｕｔｐｕｔ＿ｂｕｆ中去。由于Ｄ／Ａ转换也是按照８ｋＨｚ频率进行的，为了避免对Ｄ／Ａ转换作额外的定时，考虑到语音信号的Ａ／Ｄ转换也是按照８ｋＨｚ的频率进行的，因而可以把Ｄ／Ａ转换安排在Ａ／Ｄ转换的中断服务程序中进行，利用Ａ／Ｄ转换中断来对Ｄ／Ａ转换定时。这一方面可以使定时更加精确，另一方面也可以减小为Ｄ／Ａ转换单独设计一个定时器所带来的复杂度。

在程序运行时，首先初始化Ｃ５４Ｘ的寄存器、指针和一些变量、数组的值，并且建立Ａ／Ｄ中断服务程序。我们在程序中设置了两个标志：ｉｎｐｕｔ＿ｒｅａｄｙ和ｏｕｔ-ｐｕｔ＿ｒｅａｄｙ。其中ｉｎｐｕｔ＿ｒｅａｄｙ指示当前采样数据缓冲区（ｉｎｐｕｔ＿ｂｕｆ）是否可用，ｏｕｔｐｕｔ＿ｒｅａｄｙ表示当前解码缓冲区（ｄｅｃｏｄｅ＿ｂｕｆ）是否可用。Ｃ５４Ｘ串口设置为ＡｕｔｏＢｕｆｆｅｒ方式，由Ｃ５４Ｘ自动负责接收和发送数据，串口缓冲长度设置为帧长。每接收到一帧数据，串口就产生中断。在中断服务程序中，设置ｉｎｐｕｔ＿ｒｅａｄｙ为１，并把采集的数据从Ａ／Ｄ缓冲区（ｉｎｐｕｔ＿ｂｕｆ）复制到编码缓冲区（ｃｏｄｅ＿ｂｕｆ），每发送完一帧数据时，串口也产生中断。在中断服务程序中，判断若ｏｕｔ-ｐｕｔ＿ｒｅａｄｙ为１，把解码缓冲区（ｄｅｃｏｄｅ＿ｂｕｆ）中的数据复制到Ｄ／Ａ缓冲区（ｏｕｔｐｕｔ＿ｂｕｆ），同时清除ｏｕｔｐｕｔ＿ｒｅａｄｙ标志。在主程序中，循环判断ｉｎｐｕｔ＿ｒｅａｄｙ是否为１，如果为１，清除标志，然后调用编码过程，再调用解码过程，解码结束之后设置ｏｕｔｐｕｔ＿ｒｅａｄｙ为１，表示解码缓冲区数据可用。

３定点实现的关键技术

在应用定点ＤＳＰ的实时实现中，应注意如下问题：

（１）程序指令的精简

语音压缩编解码系统通常都是实时工作的，程序的复杂度不能超过系统硬件能提供的上限，否则将无法正常地编解码。以Ｇ．７２９协议为例，语音采样频率为８ｋＨｚ，编解码时帧长为８０个样点，也即１０ｍｓ。而Ｃ５４Ｘ的运算速度为５０ＭＩＰＳ（ＭＩＰＳ为每秒百万条指令）。如果完成一帧的编解码所需的指令数超过５０万条，系统将无法及时处理完一帧的数据，这会导致系统崩溃。而且，语音数据经常是多路处理，程序的复杂度越低，每一芯片能处理的语音路数越多，就更利于降低系统复杂度，可见精简指令是十分重要的。

由于语音处理程序本身的特点，相乘后累加这一运算形式出现的频率很高，因此通常出现在循环体内部。Ｃ５４Ｘ提供了许多双操作数间接寻址指令，如果能够巧妙运用，在一个指令周期内，同时取两个操作数，并且相乘累加，将能大大减少指令数。如在计算卷积的程序片段中，应用指令ＭＡＣ＊ＡＲ２＋，＊ＡＲ３＋，Ａ，就在循环体内减少了１条指令，总共可减少Ｎ（Ｎ－１）／２条指令。当Ｎ较大时，是非常可观的。运用双操作数指令时必须注意数据的存放，为了能同时取两个操作数，如果它们都在ＳＲＡＭ中，则它们不能在一个内存块中。如果有一个操作数在ＤＲＡＭ中，就容易满足。这就要求程序设计时尽量将数据放在ＤＲＡＭ中。

程序设计时要求尽量减少循环内部的指令数，能够在循环外部进行的操作，尽量在循环外部进行。其中尤其值得注意的是，应充分利用Ｃ５４Ｘ提供的自动修改地址指针的功能，在进入循环之前就计算好地址指针的初值，然后由处理器自动对地址指针作修改，而不应该在循环内部再通过计算得到地址指针的值，否则会大大增加指令条数。

（２）数据在ＤＳＰ中的安排

在ＤＳＰ中，没有通常Ｃ语言中的全局变量、局部变量存储的区别。在ＤＳＰ编程中只要定义了的变量，连接程序就会分配数据空间。如果像Ｃ语言编程那样定义局部变量，就会浪费大量存储空间。想要节省存储空间，就要求我们自己安排好这些数据的存放，这在存储空间紧张的定点ＤＳＰ中更显得重要。

为此，可以开辟一片公用的数据存储空间，每个模块的局部变量都在这个存储空间存放，而不是新分配存储单元。这可以通过变量的替换实现：将模块内的局部变量用．ａｓｇ伪指令替换为公用的数据存储单元。这样不但可以节省存储空间，而且可以使数据都分配在ＤＲＡＭ中，有利于并行执行。另外，这样也可以使数据尽量都集中在一个页中，避免频繁地改变数据页指针（ＤＰ），也有利于程序精简指令。这种方法与通过堆栈管理数据相比，其优点是程序可读性强，并且不须增加管理堆栈之类的额外开支。采用该方法需要注意的是，当模块相互调用时，子模块一定不能破坏父模块的局部变量。

（３）数据精度的处理

语音处理程序通常都需要进行浮点运算，为了能在定点ＤＳＰ上实现，必须用定点数表示浮点数。对于浮点数，可以根据精度的不同酌情处理。在精度要求比较高的地方，可以将计算的中间变量采用３２位来表示，一部分表示整数部分，另一部分表示小数部分。在精度要求较低的地方，用１６位表示就足够了。这样既可以保证程序的精度，又不致于增加太大的运算量。在ＤＳＰ定点实现之前，最好先将浮点算法用定点的高级语言实现，以检验定点实现的精度是否满足要求，直接用ＤＳＰ实现不但难度较高，而且不易于调试。

（４）Ｃ５４ＸＤＳＰ的一些特殊考虑

第一是关于流水线访问冲突的问题。Ｃ５４Ｘ使用６级流水线，可以在６级流水线上完成预取指、取指、译码、产生操作数地址、读取操作数、执行等６个操作，这就实现了指令的重叠。但ＣＰＵ的资源是有限的，当流水线的不同阶段都试图访问某一资源时，就有可能发生冲突。一部分流水线冲突是ＣＰＵ通过延迟指令的执行自动解决的，另一部分冲突必须由使用者避免。因此必须合理使用指令，否则会导致错误的执行结果。尤其值得注意的是辅助寄存器的更新指令，在紧接的两个指令内不应连续使用该辅助寄存器。另外，通过使用延迟跳转指令，可以减少执行跳转指令所需的实际周期数，有利于提高程序的效率。

第二是辅助寄存器的合理使用问题。Ｃ５４Ｘ有８个辅助寄存器（ＡＲ０～ＡＲ７）。对Ｃ５４Ｘ来说，辅助寄存器的间接寻址是一个非常有效而常用的寻址方式。另外，循环指令ＲＰＴＢ也不允许嵌套，当有循环嵌套时，最方便的方法就是用指令ＢＡＮＺ，这也需要用到辅助寄存器。因此，对辅助寄存器作统筹安排是十分必要的。

４结束语

根据我们目前所做的工作，一片Ｃ５４８至少可以完成两路Ｇ．７２９

算法的全双工编解码。进一步优化程序和精简指令，还可望实现更多路的通信。由此可见，ＤＳＰ芯片运算性能强、接口方便、利于集成，在数字语音保密通信、低比特率多媒体通信和数字移动通信等方面有广泛的应用前景。□

（收稿日期：１９９７－１２－２９）

[摘要] 本文介绍了新一代定点ＤＳＰ芯片——ＴＭＳ３２０Ｃ５４ｘ的体系结构和特点，及应用单片Ｃ５４８实现高质量、低延时的Ｇ．７２９协议的语音编码算法，并分析了定点ＤＳＰ在实时实现数字语音通信中的一些关键技术。

[关键词] ＤＳＰ芯片Ｇ．７２９算法语音编解码

[Abstract] Ｔｈｅａｒｃｈｉｔｅｃｔｕｒｅａｎｄｃｈａｒａｃ-ｔｅｒｉｓｔｉｃｓｏｆＴＭＳ３２０Ｃ５４ｘｔｈａｔｉｓｔｈｅｎｅｗｇｅｎｅｒａｔｉｏｎｏｆｆｉｘｅｄｐｏｉｎｔＤＳＰｃｈｉｐｓａｒｅｉｎｔｒｏｄｕｃｅｄｉｎｔｈｉｓｐａｐｅｒ．ＩｔｉｓｓｈｏｗｎｔｈａｔｔｈｅｓｐｅｅｃｈｃｏｄｉｎｇａｌｇｏｒｉｔｈｍＧ．７２９ｃｈａｒａｃ-ｔｅｒｉｚｅｄｂｙｈｉｇｈｑｕａｌｉｔｙａｎｄｌｏｗｄｅｌａｙｃａｎｂｅｒｅａｌｉｚｅｄｂｙｕｓｉｎｇａｓｉｎｇｌｅｃｈｉｐＣ５４８．Ｓｏｍｅｋｅｙｔｅｃｈ-ｎｏｌｏｇｉｅｓｗｈｉｃｈｓｈｏｕｌｄｂｅｃｏｎ-ｃｅｒｎｅｄｉｎｕｓｉｎｇｔｈｅｆｉｘｅｄｐｏｉｎｔＤＳＰｔｏｒｅａｌｉｚｅｒｅｌｅｖａｎｔｓｐｅｅｃｈｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｓｉｎｒｅａｌｔｉｍｅａｒｅａｌｓｏａｎａｌｙｚｅｄ．

[Keywords] ＤＳＰｃｈｉｐＡｌｇｏｒｉｔｈｍＧ．７２９Ｓｐｅｅｃｈｃｏｄｉｎｇａｎｄｄｅｃｏｄｉｎｇ

本期相关文章

面向多媒体网络的ＤＳＰ技术

当代ＤＳＰ及其在现代通信应用中面临的挑战

ＤＳＰ的发展概况和应用前景

基于ＡＤＳＰ２１０６ＸＳＨＡＲＣ的多媒体终端

多媒体通信、软件无线电、ＦＦＴ、ＤＳＰ

ＳＤＨ联网技术（一）

ＡＴＭ公用网与专用网互通的研究动向

中兴ＡＴＭ交换机及用户接入设备

ＺＸＪ１０机的问答