图像压缩编码国际标准化的发展

发布时间:2005-03-30 作者:汪礼勇 裘正定 姜海东(北方交通大学信息科学研究所) 阅读量:

● 视频压缩是多媒体通信的关键环节

● 现今视频压缩的国际标准多种并存

● 与其它标准相比,ITU-T的新提建议H.263+所采用的技术更全面,适用的范围更广泛

 

 

    从通信发展历史来看,如果说19世纪是电报时代,20世纪是电话时代,那么21世纪将是图像、数据和声音的多媒体时代。这个时代中最重要的媒体之一就是图像,因为图像的数据量巨大,因而图像压缩是人们自由获取、传输以及应用图像所必不可少的技术。但要使一种图像压缩的流程得到广泛应用,就必须进行标准化的工作。

 

 

1 图像通信标准化的背景

 

    在图像通信中,参与通信的各方设备都必须能够理解发送方的“话语”,即能够把码流还原成图像。但图像压缩的方法有多种,像脉冲编码调制(PCM)、空间和时间二次抽样编码、预测编码、运动估值和预测、统计编码、游程编码、变换编码、混合编码、向量的量化、分形图像编码、小波变换编码、子带编码等等。如果发送方和接收方采用不同的编解码方法,图像解压就根本不可能;即便是双方采用了相同的编解码方法,但如果所用的参数有某些不同,也会导致不能正确解码和恢复原图像。例如在离散余弦变换(DCT)中,采用8×8的块与采用16×16的块进行编解码是不能互通的。

    在当今开放的时代,人们希望图像在经过压缩、存储或传输之后,不管用户用什么解压缩流程,只要该流程与压缩流程遵循同一标准,就能够解压缩并恢复原图像。这就使得天各一方的通信双方采用不同厂家生产的编解码产品,也能进行图像通信。这一点对用户非常重要,用户可以根据自己的要求去挑选不同的产品而不必担心它们之间的互通性,从而摆脱对某一厂家的过分依赖。如在会议电视中,这种互通性保证了使用不同的设备也能正常开会,不会再出现像早期美、日、欧会议电视那样不能直接互通的情况,而不能互通正是早期会议电视最多只能形成局部会议电视网的原因。

    基于上述原因,国际上的一些组织如国际标准化组织(ISO)、国际电信联盟(ITU)、国际电子电机工程师委员会(IEEE)等一直致力于标准化的工作,并已取得丰硕的成果,如JPEG、MPEG、H.261、H.263等一系列标准化的建议都给厂家和用户提供了巨大的方便。

 

 

 

2 图像编码国际标准化建议的特点及适用方向

 

(1)二值传真图像压缩编码算法

     1988年成立的“联合二值图像专家组”(JBIG)提出了一个正式建议(ISO/IEC CD 11544),作为二值传真图像压缩编码的标准。其实在JBIG之前就有两个非常重要的二进制图像压缩标准:一个是CCITT  G3(G3-Rec.T.4),采用了MR(Modified READ)技术,这是一种算法结构。这里READ代表Relative Element Address Designate;另一个是CCITT G4(G4-Rec.T.6),采用MMR(Modified MR)压缩技术,是G3的简化版,通过去掉MR中的一些错误恢复获得更好的压缩。G3和G4对传真机和黑白文档的存储很重要,而JBIG编码的特点是:其编码效率高于G3/G4。对于典型的文本和/或线条文件,其压缩比是G4中的MMR编码的1.1~1.5倍,同时它可以采用参数定义的方法,实现二值传真图像的“逐渐浮现式”编码。这对于通过通信方式从数据库中查询档案资料是一种实用效率极高的必要措施。为此,JBIG建议中描述了一种PRES(Progessive Reduction Standard)标准算法,以生成原始图像的“半分辨率”图像。其主观质量明显优于简单地在水平和垂直方向作亚取样。而且JBIG建议也可以应用于多灰度图像和彩色图像的信息保持型压缩编码,而其编码效率并不低于JPEG建议。

 

(2)JPEG

    此即联合图像专家组(JPEG)1992年提出的一种用于连续色调静止图像压缩的国际标准。它采用了自适应离散余弦变换的方法,方块大小是8×8,精度限制在每抽样8比特和12比特,其他精度(大于12bpp)可以由选择适当的比特填充或量化折衷来得到。JPEG希望可识别的图像达到0.25bit/pix-el,优质图像达到1bit/pixel(甚至达到0.75bit/pixel),而和原图相比看不出差别时大约为4bit/pix-el,这些目标都已经达到。目前,该标准已广泛应用于计算机和通信等领域,如电视图像压缩、多媒体通信、多媒体计算机等。

 

(3)H.261

    1990年7月CCITT第15研究组通过了该建议草案,它是世界各国几十年经验的总结,是使会议电视/可视电话图像压缩编码技术走向标准化和实用化的一个里程碑。H.261适用的速率范围是p×64kbit/s(p=1~30),即64kbit/s~1.92Mbit/s。它在确保互通性和兼容性的基础上以一种恰当的形式对必要的内容作了严格限制,如规定了“MC+DPCM+INTER/INTRA+DCT+Q+2D-VLD”这个大框架及一些编码传输格式。但与此同时,它对那些与兼容性关系不大,而与图像质量息息相关的重要部分却未加严格限制,而留有充分的余地供各家根据各自的应用需要进行充实和改进,如:传输缓冲存储器控制策略、量化级自适应控制策略、运动检测方法等等。今天,基于H.261编码的会议电视在世界上已形成较大范围的应用。

 

(4)MPEG

    ISO为了满足数字电视压缩和CD-ROM等记录媒体压缩而制定了该国际标准。仅从二维空间方向的编码来看,MPEG与JPEG几乎完全相同,均以DCT作为基本要素。在MPEG中,还以H.261为基础,改进了其中的运动补偿,并增加了B帧的双向时间预测,这种双向时间预测结构在活动图像编码中有着极为重要的作用。MPEG标准分为两个主要方面:MPEG-1和MPEG-2。MPEG-1主要用于CIF格式的图像分辨率和大约1.5Mbit/s的比特速率,适用于视频和双声道,众所熟知的VCD就采用了MPEG-1编码。MPEG-2的预测结构由MPEG-1的帧结构改为场结构,以便适应电视图像的隔行扫描方式,它主要适应于CATV、数字电视、电视点播和数字视频广播(DVB)系统。

    MPEG现在正在进行MPEG-4的制定,并将于1998年11月定出该标准。该标准是支持通信、存取和处理声像数据的新一代标准。随着通信趋向无线化,以及要求越来越多的交互式通信,对声像通信所提出的许多新要求是现有标准无法满足的。对MPEG-4的期望是应具有基于内容的存取和处理能力,编码器能识别图像中的目标,并跟踪它的移动;并且MPEG-4要与物理网络无关,具有交互性和解码的可卸载性。MPEG-4将为多媒体通信应用和业务提供一项通用技术,它将是多行业的共同标准,并使多媒体通信成为现实。

 

(5)H.263

    1995年6月ITU-T通过了该标准。H.263是根据H.261改进而来。H.263针对低比特率视频编码,采用了一些较成熟而有效的方法,改善了图像的质量。与H.261一样,H.263采用了基于运动补偿的DPCM混合编码方法,同时采用了DCT、二维Zig-Zag游程Huffman编码或基于语法的算术编码方法(H.261中只有Huff-man编码),但H.263和H.261并不兼容,原因在于编码表不一样。此外H.263比H.261精简了头部信息。其针对低码率的改进在于:

    .H.263改善了运动补偿的精度,由H.261的整像素提高到半像素,去掉了H.261中的环滤波器。同时为了进一步改善运动补偿的效果,H.263提供了3个可选项:无限制的运动矢量模式(Unrestricted Motion Vector Mode)——为了克服图像边缘处运动矢量搜索所受的限制以及某些由于摄像机的抖动所造成的编码效果的下降(如Foreman序列)而提供的模式;先进预测模式(Advanced Prediction Mode)——运动补偿由H.261的16×16像素宏块缩小到8×8的像素块,采用了块交叠运动补偿(Overlapped Motion Com-pensation)技术,降低了基于方块的编码方法所带来的方块效应;PB帧模式(PB-Frames Mode)——B帧的双向预测技术在MPEG-2中取得了较好的效果,比如可以消除新背景移出而带来的前向预测的错误。H.263就参考引入了PB帧模式。以上这些可选项进一步改善了运动补偿的效果,保证了低码率下的图像质量。

    .H.263还提供了算术编码的方法来替换二维Huffman游程编码,在相同码率下,该选项可进一步提高图像质量。

     虽说H.263是针对低码率的视频编码,但这些改进方法在更高码率的情况下也优于H.261,所以I-TU-T取消了其原来的“小于64kbit/s”的规定。在ISDN短期内无法实现的情况下,H.263是实现话带传输活动图像的一种很好的方法。目前,基于H.263的图像解码板已经出现,相信基于H.263

的应用会很快走向广大用户。

 

(6)H.263+

    它是ITU-T最近新提出的建议。该建议对H.263进行了一些修改,增加了一些新的技术,这些新增的技术如下:

    .为扩大适用范围,采用了:——分层图像(Scalability Pic-tures)表示:考虑到不同的应用环境对图像质量的不同要求,将视频比特流分到多个逻辑信道中,接收端可以根据本端的质量要求译码,可以舍弃增强层的数据,而且对图像的重建质量不造成不可恢复的损失。这种分层技术可以分为:时间分层(Temporal Scalability)、信噪比分层(SNR Scalability)、空间分层(Spatial Scalability)。

    ——放宽了图像格式的限制,允许双方协商采用专用格式进行通信,只要图像长度落在(4,2048)之间,宽度落在(4,1152)之间,且都能被4整除就行。同时图像序列的时钟频率也可以协商调整。

 

.为增强抗误码性能,采用了:

    ——对PB帧模式进行了改进:H.263中的B帧只采用双向预测,B帧的译码正确与否过分依赖P帧的正确译码,这就降低了抗误码能力,H.263+中允许B帧可选择使用双向预测或前向预测,同时B帧的运动矢量独立进行编码,这就提高了抗误码性能。

——分片结构(Slice Struc-ture):该技术吸收了MPEG-2建议的分片结构形式,将图像分为几个分片,分片之间无重叠,比特流中的分片数据相互独立,这样某个分片的数据坏了之后,不影响其他分片的正确译码。

——独立分段译码(Independent Segment Decod-ing):图像分段被定义成若干个连续的宏块组(使用分片结构时,分段被定义成一个分片),分段的数据之间没有任何依赖性,译码时坏段的数据不干扰其他段的译码。

 

.为进一步提高压缩比采用了:

——先进的帧内编码模式(Advanced INTRA Coding Mode):H.263+为帧内编码定义了新的编码方式,包括编码块系数反量化修正和独立的帧内编码表。反量化的步长并不像H.263那样固定为8,可以改变,不存在死区。由于帧内编码的系数和帧间编码的系数的概率分布并不一样,像H.263中那样两种系数采用同一码表的做法降低了编码的效率,H.263+则采用了不同的码表,提高了编码效率。

 

——交替的帧间变长编码(Alternate INTER VLC):当帧间编码块的DCT系数中量化电平大得较多时,采用帧内码表进行编码后的比特率较小,则可以采用帧内编码码表。这种技术要求译码器的处理速度要高,因为它要对系数进行两次译码,取正确的一个作为解码系数。

 

——参考帧选择(Reference Picture Selection):H.263中没有参考帧的选择,而H.263+中为了获得较好的压缩效率,抑制帧间预测误差的扩散,允许编码器在前几帧图像中选择一个压缩效率最高的图像或某个图像分段来进行运动估值。采用的图像或分段信息可通过后向通道进行传输。但此技术要扩大帧缓存、提高处理速度来提高压缩比,抑制帧间预测误差的扩散。

 

.为改进图像的重建质量和改善编码控制,采用了:

——块效应消除滤波器(Deblocking Filter):H.263中的运动估值和DCT均以块为单位。这种人为分割图像造成了方块边界的不连续性,H.263+在块边界采用了滤波器来消除方块效应。

 

——降低分辨率更新(Reduced-Resolution Update):在图像有剧烈运动时,编码的效率将降低,H.263中采用降低编码帧率来满足低比特率的要求,但这又造成了更严重的动画效应和帧间预测误差扩散,使译码图像质量急剧降低;而H.263+中采用将编码图像的分辨率降低到原图的1/4,即长宽均减半,这样编码比特率就可降下来,译码时内插到原图的分辨率,这就避免了帧率的下降及图像质量的急剧下降。

 

——量化修正(Modified Quan-tization):H.263+改进了量化修正因子的表示方式,扩大了其可修正范围,使其对比特率的控制更加灵活;使色差信号的量化步长是亮度信号的一半,提高了图像色差系数的量化精度,同时H.263+中还扩大了对系数量化电平的可表示范围,即从H.263的?眼048,+2048到现在的?眼096,+4096。

以上这些技术使得H.263+在使用上比H.263更方便,控制上也更灵活,适用范围也更广。

 

 

 

3 结论

 

    毫无疑问,21世纪将是一个集声音、图像、数据为一体的多媒体时代,而这些标准化的建议有力地保证了这一时代的顺利到来。对我们来说,应当抓住机遇,跟上标准化的步伐,以自己的多媒体标准化产品去占领广阔的通信市场。□

 

参考文献

1 翁成坚,何芸.低码率活动图像编码.通信学报,1997,7

2 ITU-T recommendation H.263 video coding for low bitrate communication.July,1995

3 ITU-T SG 16 Draft text of “H.263+” revi-sions to recommendation H.263 for determina-tion.March,1997

4 岑际星.MPEG-4——实现多媒体通信的国际标准.电子科技导报,1997,6

 

(收稿日期:1998-05-08)