视频压缩技术的发展

发布时间:2005-03-15 作者:汪孔桥 沈兰荪(北京工业大学信号与信息处理研究室) 阅读量:

▲ 视频压缩技术是现阶段实现视频传输的前沿课题

▲ 近年来有代表性的国际编码标准有ITU的H.263建议及ISO的MPEG-4标准

▲ 极低比特率的视频编码是当前多媒体通信中的关键问题

 

    随着计算机和电子通信技术的飞速发展,人们已从单一媒体通信的时代跨入了多媒体通信的时代。可视图文、可视电话、视频电视会议、视频点播(VOD)等多媒体业务正以全新的方式使人们的生活变得丰富多彩,同时,也给多媒体通信网络带来了巨大压力。一方面,多媒体信息综合了语音、文档、图形、图像等各种信息形式,其数据量巨大,例如:数字化标准电视信号的速率超过100Mbit/s,这样的信息如果不压缩将占用很多信道资源,严重影响通信网络高速、大容量优点的发挥;另一方面,尽管多媒体网络技术发展迅速,网络传输速率越来越快,如B-ISDN的传输速率能达到4Gbit/s,但铺设新网络价格一般较高,且铺设过程只能是渐渐地完善,难以在短时间内完全替代旧网络。同时网络交通如同城市道路交通一样,虽然容量在不断增加,但流量似乎增加得更快,随着网络技术的广泛应用,各种类型的多媒体信息都涌上已十分拥挤的网络通道,现有的网络结构面临着严峻挑战。

    由于历史原因和时代发展的需要,目前使用最广泛的通信网络主要是公众电话交换网(PSTN)和蜂窝移动通信网。这两类网络只有有限的带宽容量,它们只能传输极低比特率的数字信息,如PSTN网的传输速率大约为22.4~33.6kbit/s,而移动通信网络的传输速率一般要求限制在16kbit/s以内,绝不允许超过64kbit/s。为了满足人们对多媒体信息的巨大需求,今后将有相当一部分多媒体业务不得不通过现行窄带网来传输,因此如何有效压缩多媒体信息特别是视频信息,使其在窄带网上实时传输,就成为当前极富挑战性的前沿课题,也是电信界所关注的焦点。

 

1 新的国际编码标准

 

    图像编码经历了漫长的近半个世纪的发展,如今进入了广泛应用和深入研究的高速发展时期,特别是应用的需求极大地推动着图像编码向更广、更深的方向发展,例如:静止图像通信、可视电话、视频电视会议、数字图像存储、数字电视和高清晰度电视(HDTV)以及虚拟现实(VR)等都迫切需要性能更佳的图像编码技术。为了满足这些要求,则必须将不同性能优良的图像编码算法进行有机结合。自70年代以来,国际标准化组织(ISO)和国际电信联盟(ITU)在这方面做了大量的工作,制定了一系列国际编码标准和建议,且该项工作还在继续。下面简要介绍近年来已推出和将要推出的一些有代表性的国际编码标准和建议。

 

1.1 ITU的H.263建议

    1995年11月,ITU-T推出了关于低比特率视听多媒体终端H.324建议。作为其核心,H.263建议用于极低比特率的视频编码。由于H.263是在H.261建议的基础上发展起来的,其信源编码算法的核心仍是H.261建议中所采用的DPCM/DCT混合编码方法。与H.261建议相比,H.263建议有如下几个特点:

(1)除定义了公共中间格式(CIF)与QCIF两种图像格式外,还定义了Sub-QCIF(128×96)图像格式等;

(2)QCIF图像有99个宏块,每11个宏块为一个块组(GOB),可以表示QCIF图像的1/9;

(3)由于H.263建议的编码比特率比H.261建议更低,因而字头的比特数就越少越好。在块组的字头定义中,对应于图像的第1个宏块,如块组字头为空,只传送宏块数据。对块组的编码模式、宏块类型、运动矢量数据均采用不同的变长编码(VLC)码表,以减少字头的比特数;

(4)采用半像素精度的运动估计,取值范围为(-16.0,+15.5),提高了预测精度,从而进一步降低了比特率;

(5)H.263建议定义了4种编解码模式:非限制运动矢量模式、高级预测模式、PB帧模式和基于句法的算术编码模式。这是提高H.263编解码器性能的关键。

 

1.2 ISO的MPEG-4标准

    活动图像专家组(MPEG)委员会组建于1988年,MPEG标准主要包括MPEG视频、MPEG音频和MPEG系统3个部分。其中MPEG视频是标准的核心,主要包括帧内编码和帧间编码,以消除图像系列的时域冗余和空域冗余。

    MPEG-1和MPEG-2两标准的制定已获得了巨大的社会效益和经济效益,极大地推动了新一代MPEG标准的研究和制定工作。ISO/MPEG委员会自1993年开始规划MPEG-4标准的宏伟蓝图以来,经过5年的艰苦努力,MPEG-4标准现已基本成型,其草案已于1998年12月正式出台。

    MPEG-4标准是极低比特率(小于64kbit/s)的运动图像及其伴音的压缩标准,主要应用于可视电话、视频电视会议、视频邮件等多媒体通信领域。由于现存视频编码标准(如MPEG-1、MPEG-2、H.261、H.263)都只能在帧级水平处理视频信号,因此不能对视频码流中的单个物体进行独立的编码、解码和操纵等,而MPEG-4却能支持对数字音频、视频数据进行基于内容的通信、访问和操纵,它具有灵活的框架结构,能提供一个开放式的工具箱,以支持其常规功能和高级功能,另外它还具有改进的编码效率,能实现极低比特率的编码,因此在视频编码算法上,MPEG-4标准需采用视频目标平面(VOP)以及图像分割、图像拼接等算法,需融合按目标平面编码、轮廓编码、纹理编码、非矩形区域编码以及波形编码(自然合成)等多种编码技术,把人工智能、模式识别、机器人视觉等多种技术综合在一起。

    MPEG-4标准的主要目标是:

(1)专门用于64kbit/s以下极低比特率的音、视频编码;

(2)不仅适用于移动通信和个人通信,而且也适用于固定公用通信网和电视电话网;

(3)适用于窄带多媒体通信等广泛的应用领域;

(4)实现基于内容的压缩编码,并且具有良好的兼容性、伸缩性和可靠性。

为此,MPEG-4标准可实现如下功能:

(1)改进的编码效率;

(2)基于内容的可伸缩性和可操纵性;

(3)噪声环境下的鲁棒性;

(4)具有多媒体数据访问工具;

(5)既能编码图形,又能编码图像;

(6)具有改进的时域随机存取能力。

 

1.3 ISO的MPEG-7标准

    除上述标准外,MPEG-7标准也在酝酿之中,预计将于2000年11月问世。MPEG-7标准作为MPEG家庭中的一个新成员,正式名称为“多媒体内容描述接口”,其主要目标是为各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体信息的内容有关,便于用户对其感兴趣的各种材料进行快速有效的检索,也就是说以MPEG-7标准定义的多媒体信息将是可查询的,这些信息不仅包括静止图像和活动图像,而且也包括图形、3D模型和语音等,甚至在某些特殊情况下还包括视频信息中物体的运动。需强调的是,MPEG-7标准对多媒体信息的描述与其本身的压缩存储两者之间并没有什么关系,例如:任何未经压缩的多媒体信息都可以用MPEG-7标准来描述,以MPEG-7标准定义的多媒体信息可选用JPEG、MPEG-1、MPEG-2、MPEG-4中的任何一个标准来压缩。

    由于MPEG-7标准建立在MPEG-4标准的基础之上,因此其应用范围将更加广泛,如教育、旅游、娱乐、电子购物等。

 

2 视频压缩技术的发展趋势

 

    随着社会的高度信息化,特别是Internet的迅猛发展,各种多媒体传输业务将以爆炸性速度增长。为满足人们对多媒体信息的巨大需求,极低比特率的视频编码是当前多媒体通信领域内亟待解决的关键性问题。

 

2.1 基于图像内容的压缩方法

    现有的国际编码标准如MPEG-1、MPEG-2、H.261、H.263等均采用了基于图像块的编码方式,在高压缩比时,会出现方块效应且物体运动不自然。更有甚者,因编码是一帧一帧地顺序进行的,所以无法实现序列图像中物体的独立编码、解码和操纵,同时也难以实现图像编码的可伸缩性。Gerken、Os-termann、Musmann等人先后提出了基于图像内容的压缩方法,克服了基于块的方法所存在的不足,实现了高质量的极低比特率视频编码,但这些方法仍存在如下问题:

(1)由于准确表示物体形状造成了较大的比特开销;

(2)物体的分割和运动估计计算太复杂。

   目前基于图像内容的压缩方法已成为视频编码的研究热点,其中Talluri等人提出的低计算复杂度的方法较具代表性:采用数学形态学求得帧间物体的运动,并以此确定物体的大致形状,根据运动估计,预测出下帧中的物体。对于物体运动估计失败区,采用离散余弦变换(DCT)或离散小波变换(DWT)的方法进行压缩,该方法已作为MPEG-4的竞选方案提交给MPEG委员会。

 

2.2 基于模型的编码方法

    随着VLSI技术的迅速发展和计算机处理速度的加快,高计算复杂度的模型编码方法越来越受到人们的重视,图1为其通用的编解码框图。在编码端,运用计算机视觉技术,以给定模型对视频序列图像中每一个物体进行分析,产生该物体的大小、位置和运动等参数信息。在解码端,根据所获得的物体模型参数信息,运用计算机图形学,可综合出物体的动画模型。为了获得序列图像中物体的帧间运动,还需采用运动跟踪技术,使物体的动画模型能模仿真实物体的运动。如果对物体的恢复质量要求不高,则物体的动画模型便足以表示原序列图像中的物体,而要想获得高质量的恢复物体,则必须对原物体与其对应的动画模型之间的残差信息进行编码,在解码端用该差值信息对恢复出的动画模型进行补偿。

    在一般情况下,模型方法建模的对象为图像中的人脸。根据已知的二维或三维人脸模型,获得简单的动画人脸只需500~1 000bit/s的开销,而获得较复杂的动画人脸也只不过需5~10kbit/s的开销,对CIF或QCIF格式的彩色视频头肩序列,获得较高质量恢复序列的比特率一般为16~64kbit/s。正因为模型法能获得如此低的比特率,所以它也已成为MPEG-4标准的关键技术之一。

 

2.3 小波与人脸检测相结合的编码方法

    在可视电话、视频电视会议、人机交互等领域内经常出现的视频信息为人的头肩像,这些视频图像一般具有背景静止、头肩运动相对缓慢等特点,采用小波与人脸检测相结合的编码方法对其压缩,可获得较高的压缩效率。

    由人眼的视觉心理特性可知,人眼对图像不同区域的主观感受是不同的,也就是说按照人对图像不同区域感兴趣的程度可以将其分为感兴趣区和不感兴趣区。整幅图像主观质量下降的原因往往在于感兴趣区质量的下降,据此采用的编码策略如下:

(1)帧内编码时,保证人脸区的编码精度,给其它区域分配较少的比特;

(2)帧间编码时,用前一帧的人脸区预测后一帧的人脸区,预测误差用小波方法进行压缩,背景区与肩部区可直接粘贴自第一帧。

该编码方法具有如下几个方面的优点:

(1)充分利用人眼视觉的心理特性,保证人脸区的编码精度,使编码比特分配更为合理;

(2)继承了小波编码方法的所有优点;

(3)对人脸图像的背景复杂度不加任何限制;

(4)可容易地实现基于人脸内容的编码可伸缩性,编码比特流适合于ATM环境下传输;

(5)可实现极低比特率编码。

 

3 结束语

 

    近几年来,由于多媒体数据压缩技术取得了巨大进展,使得许多陷入困境的多媒体通信行业焕发了活力,特别是多媒体视频电视会议系统的研究成果令人瞩目,目前国内外已有许多相应的实用化产品面市,如Intel公司的Proshare、Cornell大学的CU-SeeMe、中兴通讯公司的MVC2000、MVC3000等。可以相信,多媒体数据压缩技术与视频技术及网络技术相结合的应用前景十分可观,它将对今后的社会进步产生重大影响。

 

参考文献

1 沈兰荪.图像编码与异步传输.北京:人民邮电出版社.1998

2 P Gerken.Object-based analysis-synthesis coding of image sequences at very low bit rates,IEEE Trans Cir-cuits Syst Video Technol,1994(4):228~235

3 J Ostermann.Object-oriented analysis-synthesis cod-ing based on the source model of moving flexible 3D ob-jects,IEEE Trans I P,1994(3)

4 H G Musmann.A Layered coding scheme for very low bit rate video coding,SP:Image Commun,1995(7):267~278

5 R Talluri,K Oehler,et al.A Robust,Scalable,Object-Based Video Compression Technique for Very Low Bit-Rate Coding,IEEE Trans on Circuits Syst.Video Technol,1997,7(1):221~233

6 D E Pearson.Developments in Model-Based Video Coding,Proc IEEE,1995,83(6):892~906

7 汪孔桥,沈兰荪.一种结合人脸检测的小波图像编码方法.电子学报.1998,26(4):88~90

 

(收稿日期:1998-09-18)