选择语言

简体中文 English

ＭＰＥＧ视频鉴别技术

发布时间：2005-03-16 作者：江平Jiang Ping 卢官明Lu Guanming 胡建彰Hu Jianzhang

１多媒体鉴别技术

鉴别是用来证明某种事物来源合法或者证明某事物保持了其原始属性。例如，在电子商务领域，用户从Ｉｎｔｅｒｎｅｔ网上购买了由多媒体数据承载的商品，用户需要知道自己购买的商品是否是从合法制造商那里购买的，并且必须保证其内容没有作过篡改。在多媒体日益发展的今天，人们希望多媒体数据能保证其可信度，这就需要用到鉴别技术。对鉴别的不同要求影响着实际应用中采取的具体方法。

多媒体数据是对事物的一种表现形式，如具有原始属性的产品（人工制品）或者是对属性进行重现的产品（数字格式或其它格式）。多媒体数据是抽象比特的合成，不像有些产品通过物理特性就可以鉴别，它只能通过非物理方式进行。一种方法称为盲鉴别，是用于检测作者身份和内容连续性以防止伪造。这种方法广泛用于传统鉴别应用中，该方法也正处于发展过程中以适用于多媒体鉴别；另一种方法是早在１９７６年就提出的数字签名技术。签名者的数字签名应该是和数据内容有关的只有签名者才知道的秘密信息。也就是说，数字签名可以用于检测签名者事先背书了的数据完整性。当然，这些都是在信任签名者的基础上进行的鉴别机制。

不管采取哪种鉴别算法，背书人的可信度将是个很重要的因素。在传统的消息鉴别研究中，背书人通常是消息的产生者和发布者。然而，多媒体数据却常常被许多中间实体发布和重新解释。这样，就需要减少背书人的数量。一种稳健的数字签名方式可以解决这个问题。这种签名方式主要用于ＪＰＥＧ图像数据的鉴别。

１．１多媒体鉴别目标

按照多媒体鉴别目标分，可以把鉴别系统分为完全验证和内容验证。完全验证将多媒体数据看作是不可接触的消息，要验证的数据必须和原始消息一致。以前在加密领域里对消息的鉴别都属于这一类。

多媒体数据鉴别的特征之一是内容验证。因为多媒体数据的意义在于其内容而不是比特流。在某些应用场合中，在不改变内容意义的前提下对比特流的处理是可以被接受的。压缩就是一个典型例子。现在大部分数字多媒体数据都以压缩的形式被保存或发布。为满足广播、存储、传输等的需要，可能要求将压缩后的数字视频进行代码转换。例如，数字视频剪辑通常都是以压缩的格式存储，其比特率是预先规定好的。而在发布过程中，却采用完全不同的比特率。代码转换过程改变的是数字视频的像素值而不是其内容。因此，从原始数据经代码转换而来的视频数据可以认为是可信的。

对于完全验证，可以在每个传输环节检验数据，并且信任所有的中间实体；对于内容验证，可以将稳健的数字签名和数据一起传输，这样只在最后一个环节进行检验。

１．２多媒体鉴别内容

在很多应用领域都已经制定了各种多媒体压缩标准，并且应用非常广泛，如用于ＷＷＷ的ＪＰＥＧ、用于ＶＣＤ的ＭＰＥＧ－１、用于ＨＤＴＶ的ＭＰＥＧ－２以及用于视频电视的Ｈ．２６１和Ｈ．２６３。多媒体鉴别系统的内容可能是未处理过的数据或者是压缩过的数据。在实际应用中，未处理过的多媒体数据不多。例如，扫描仪扫描产生的中间数据是未处理过的原始数据，但只能以压缩的格式进行存储；数字摄像机所获取的多媒体数据根本就没有中间数据，而是直接以压缩文件的形式存储。在实际中，只能鉴别原始数据的多媒体鉴别系统只有有限的应用场合，这些特例包括：（１）非标准数据如３Ｄ对象；（２）不允许有失真压缩的医学图像。

１．３多媒体鉴别方法

数字签名是进行多媒体鉴别的方法之一。它不同于传统的手工签名，数字签名是不可伪造的，签名是可靠的、不可重用的，签名的文件是不可改变的，而手工签名达不到上面的要求，因此数字签名保证了发方与收方传送真实的信息。完善的签名系统应由发方签名发送，收方签名送返回执。签名是某一密码算法、密钥和数据参与运算的结果，因而它也具有动态性。数字签名可以成为具有法律意义的可提供公正和仲裁的依据。

数字签名有两种保存方式。如果压缩的源数据头在整个处理过程中能保持原封不动，那么数字签名可以保存在数据头里。否则，数字签名可以保存为一个独立的文件。对多媒体数据进行鉴别时，必须要求提供数字签名。在某些场合下，这可能是不方便的，可看成是一个缺点。目前，只有稳健的数字签名被证明对内容验证是有用的。由于我们所提出的技术是基于以ＤＣＴ为基础的压缩标准的特性，所以，可以准确地把压缩与其它处理区分开来。

下面主要讨论ＭＰＥＧ视频的鉴别方法和存在的问题。为了将上述的图像鉴别技术扩展到ＭＰＥＧ视频鉴别中，必须提出两个重要的问题，即：代码转换和编辑过程；数字签名的大小。

由于数字视频很少以它们的原始形式记录，所以这里主要是针对ＭＰＥＧ－１或者ＭＰＥＧ－２格式的数据鉴别问题。

２ＭＰＥＧ视频鉴别

２．１代码转换和编辑过程

为了设计一个对压缩视频进行内容鉴别的系统，就必须知道视频可能接受的几种处理。一般而言，有下面５种可接受的代码转换或者编辑过程适用于压缩视频：

（１）动态比特率形成。压缩域中一种实时的比特率控制方案。这种技术设置了动态控制点以删除宏块中每个８×８子块的高频ＤＣＴ系数。运动矢量不作改变。

（２）无偏差纠错的比特率控制。这也是应用于压缩域的一种技术。这一技术中，ＤＣＴ系数重新量化以满足不同的比特率约束。运动矢量不作改变。

（３）有偏差纠错的比特率控制。这种技术对ＤＣＴ系数进行重新量化，计算量大。进行帧间编码子块的残差ＤＣＴ系数被修改，以平衡经过重新量化的帧内编码子块的变化。运动矢量不作改变。

（４）对类型相同的图像的编辑。在每个编辑过程中，图像类型（Ｉ、Ｐ、Ｂ）保持不变。可通过剪贴一些视频片断来产生新的视频序列。在每个视频片断里，图像组（ＧＯＰ）边缘一般不会改变，除非靠近剪辑位置。为改进视频质量，像素值可能会发生改变。

（５）对类型不一致的图像的编辑和代码转换。在有些处理中，压缩视频被解压缩成比特流，编辑后再被压缩。ＧＯＰ结构和运动矢量在这种情况下会改变。这种过程包括在不同压缩标准之间的格式传输与图像类型转换。

前３种处理情形用于比特率变化的情形，他们都是在压缩域里进行。这３种代码转换处理中，运动矢量和图像类型都没有改变，唯一改变的是帧内编码宏块的ＤＣＴ系数或者是帧间编码宏块的ＤＣＴ残差系数。

在演播室剪贴一些ＭＰＥＧ视频段生成新的视频序列是一种非常普遍的做法。这可以采用第４和第５种处理情形。它们的基本不同之处在于ＧＯＰ结构在处理过程中是否不变。第４种情形中，有两种视频ＧＯＰ：原始ＧＯＰ和生成的ＧＯＰ。原始ＧＯＰ来源于原始的视频序列，其结构保持不变；生成的ＧＯＰ由原始视频序列的边界图像产生。如果视频不允许在ＧＯＰ内部进行剪贴，则不会有生成的ＧＯＰ。在实际应用中，生成的ＧＯＰ的数目比原始ＧＯＰ少得多（一个典型的ＧＯＰ大约有０．５ｓ）。因此，在鉴别过程中只着重考虑原始ＧＯＰ。

对于不同的情形，可产生不同的数字签名以进行视频鉴别。从第１～４种情形可以看出，ＧＯＰ的结构在代码转换和编辑处理后不会改变。因此可以生成一个稳健的数字签名，这个签名不会因为各种可接受的处理而被破坏。这种稳健的数字签名称之为类型Ⅰ。

对于第５种情形，由于ＧＯＰ结构被破坏，只有图像的像素值没有改变。因此，视频序列可以看作是图像帧的集合，能够通过ＪＰＥＧ图像鉴别的方式进行鉴别。这种稳健的数字签名称之为类型Ⅱ。

２．２ＭＰＥＧ视频序列原型

在ＭＰＥＧ标准中，每个视频序列由几个连续的ＧＯＰ组成。每个ＧＯＰ是包括若干图像的独立单元。在ＭＰＥＧ－１中，一幅图像就是一帧图像。在ＭＰＥＧ－２中，一幅图像可以是一场图像也可是一帧图像。一幅图像又分为很多片，每片是一串以光栅扫描顺序排列的长度不限的连续宏块。宏块是１６×１６像素的运动补偿单元，每个宏块包括若干８×８的子块（４：２：０格式的有６个子块，４：２：２格式的有８个子块，４：４：４格式的有１２个子块）。

３稳健的数字签名

３．１公共密钥密码术

公共密钥技术利用两个密钥取代常规的一个密钥，是一种利用成对密钥加解密的方法，包括一个公共密钥（任何人都可以知道的）和一个私有密钥（只限拥有者知道）。公共密钥被用来加密数据，私有密钥被用来解密数据。公共密钥（加密钥）的基础是两个巨大的质数的乘积，而私人密钥（解密钥）的基础则是这对质数。

公共密钥密码术的工作流程是：首先安装此类加密程序，设定自己的私人密钥，并由程序生成巨大的公共密钥。然后向所有业务上有通讯联系的人发去公共密钥的拷贝，同时请他们也使用同一个加密程序。公共密钥真正是公共的，事实上，公共密钥甚至可以放在网页上面任人索取。此后他人就能向你发送已用你的公共密钥加密成密码的信息，仅有私有密钥拥有者才能解码那些信息；同时，私有密钥拥有者也可向别人发送经过私有密码加密了的信息，这样接受者可以通过用公共密钥解密来判断信息来源是否真是落款人发出的，因为如果信息来源不是落款人或者被非法改动，则用公共密钥解密时很容易被发现。

有时为保证数字文件的真实性，可以采用双重加密。其原理如下：如果发送方的数字文件在发出之前需要签名确认，加密程序就会先要求用发送方的私人密钥加密，再用接收方的公共密钥二次加密后方才发出。对方接收到双重加密的信息后，先用其私人密钥解除二次所加的密码，再用发送方的公共密钥解除一次所加的密码。

鉴于本文涉及的应用范围，对数字文件只利用私有密钥一次加密。

３．２数字签名的稳健性

数字签名是为了区分视频数据可接受的处理和非法篡改，只有保证足够的稳健性，数字签名才能发挥作用。在不少情况下，有些处理可以被接受，但有时其中的处理会对像素值或图像造成太大的变化。例如，一帧图像的亮度发生变化，这只是改变了所有ＤＣＴ子块的ＤＣ系数。由于在鉴别时是比较ＤＣＴ系数的差值，所以可能出现图像亮度过大或过小但这种处理却仍然被接受。这种情况是不希望出现的。因此为保证数字签名的稳健性，应包括所有ＤＣ系数的均值。即在产生数字签名时，应包括必要的特征值以产生相应的特征码。另外，有些处理在某些场合需要被接受，但鉴别时却可能被认为是非法操作。例如，在某些有失真的压缩中，图像可能被改变。同样，也为了保持数字签名的稳健性，在鉴别过程中可能增大容限τ以排除合法处理过的图像而检测到真正受过恶意篡改的图像。

３．３稳健的数字签名：类型Ⅰ

一幅图像内任意两个８×８子块采用相同的量化步长，其中相同坐标位置的两个ＤＣＴ系数应该一样或者在重新量化过程后相等，这表明了ＤＣＴ系数对的关系。而且，在重新量化后ＤＣＴ系数对值的变化范围受量化步长的限制。因此，可以使一幅图像里的所有子块组成子块对，并且生成代码来表示相同坐标位置的系数对的关系。生成的代码通过公共密钥方法加密，从而形成数字签名。

为了使情形１～４生成稳健的数字签名，可以对每个宏块内亮度、色度矩阵进行量化，由于一个宏块内各子块的量化步长都是一样的，子块相应位置的系数关系在代码转换过程中是不变的。因此可以将宏块中的子块分成两两组合的子块对，利用子块对的ＤＣＴ残差系数关系，并采用变长编码方式，可以产生特征码Ｚｃ。

除了保护ＤＣＴ系数外，还要保护运动矢量和控制码等其它信息。这可以通过将视频序列比特流的Ｈａｓｈ值加到特征码中来实现。由于ＧＯＰ是ＭＰＥＧ比特流中视频序列的基本独立单元，可以对一个ＧＯＰ中每个图像的特征码和Ｈａｓｈ值进行加密，从而生成数字签名。

３．４稳健的数字签名：类型Ⅱ

数字签名类型Ⅱ是为第５种处理情形设计的。ＧＯＰ结构、运动矢量或者ＤＣＴ残差系数在这种环境下会发生改变，唯一保持不变的只有图像的像素值。因此只能基于每幅图像的像素值来产生数字签名。其过程如下：

（１）对所有类型（Ｉ，Ｐ，Ｂ）的图像重构像素值；

（２）将图像分为８×８的子块，建立子块对，比较每个子块对的ＤＣＴ系数，用一个比特表示每个比较关系；

（３）将时间码加入到特征码；

（４）使用私有密钥加密以产生数字签名。

４鉴别过程

４．１在代码转换后鉴别视频序列（第１～３种情形）

鉴别过程中，数字签名从ＧＯＰ的标题中提取出来，进行解密，得到特征码和Ｈａｓｈ值。检查视频序列中ＧＯＰ的可靠性的过程与数字签名产生的过程相似，ＧＯＰ中的每个图像分为两部分：Ｐｂｌｏｃｋ＿ｄａｔａ和Ｐｏｔｈｅｒ，然后分别鉴别这两个部分。鉴别Ｈａｓｈ值，可以先获得ＧＯＰ的Ｚｍ，因为这部分信息在代码转换过程中保持不变，所以Ｚｍ应该等于Ｚｍ。否则，这个ＧＯＰ肯定在某个过程中被非法修改了。

为了鉴别ＧＯＰ的特征码，鉴别者必须对特征码进行变长解码以获得每个子块对所选系数的关系符号函数，通过用ＪＰＥＧ图像的鉴别过程，可以鉴别ＤＣＴ系数是否受到非法修改。这是因为：

（１）在第１种情形里，子块中一些ＤＣＴ高频系数被丢弃并置为０。如果两个ＤＣＴ系数在代码转换后都为０，鉴别者可以认为它们是可信的。这是因为低频系数在代码转换中保持不变，它们的相互关系也就和最初完全一样。

（２）在第２种情形里，ＤＣＴ系数被重新量化以满足一些比特限制。由于子块中相同位置的ＤＣＴ系数的量化步长相同，系数对差值的符号函数的变化情况只能是：正到正，正到零，零到零，负到负，负到零。如果发现系数关系不满足这个规则，就可以断定视频序列被其它处理修改了。

（３）在第３种情形里，帧间各子块的ＤＣＴ系数应该重新量化。同样，帧间子块的ＤＣＴ残差系数也要改变，以补偿参考子块重新量化引入的量化误差，然后再进行重新量化。为了鉴别这些子块，为鉴别者引入了容限范围τ。对于帧间子块，τ取值０；对帧内子块，τ值可以根据量化级及量化矩阵确定。定义原始视频里的子块对（ｐ，ｑ）在位置ｂ的系数差值Δｆｐ，ｑ（ｂ），同时定义检查过的视频里子块对（ｐ，ｑ）在位置ｂ的系数差值Δｆｐ，ｑ（ｂ）。这样就有如公式①、②、③的性质。

鉴别者可以通过①～③式检查系数。如果不满足这些性质，则可以确定视频序列被不可接受的处理修改过。

除了ＧＯＰ内的处理外，还有一种处理可能改变ＧＯＰ的时序从而改变视频序列的意义，可以通过检查ＧＯＰ标题里的时间码检测出这种处理。

４．２在编辑处理后鉴别视频序列（第４、５种情形）

数字签名类型Ⅰ用于第４种情形。在这种情形里，对于原始的ＧＯＰ，其结构没有改变，它的数字签名是独立的，可以用前面提到的鉴别方法来检测；如果没有限制条件，在生成的ＧＯＰ中，有些图像的类型可能会发生变化。在编辑压缩视频时，如果相应的源ＧＯＰ的数字签名拷贝给了生成的ＧＯＰ，那么类型没有变化的图像和进行帧间编码的宏块可以被检测出来。对类型发生变化的图像，鉴别者没法检查。另外，如果数字签名没有拷贝给生成的ＧＯＰ，则没法检测其可靠性。一般而言，可以忽略那些边界图像，并且标明它们没有被检查。鉴别视频序列前的编辑处理，除了有剪贴外，还有一些其它的编辑过程如亮度增强、修整、定标、滤波等。

对第５种情形，每一图像内所有的像素值都会改变，但是这种改变不会影响视频内容的意义，这种在空间域的微小变化会导致ＤＣＴ域的微小变化。因此，如果ＤＣＴ域的变化显著，则可以认为是恶意篡改的结果。我们可以用预先定义的容限值τ来鉴别每幅图像。在鉴别过程中，如果所有的系数对满足①～③式，就可以认为鉴别的视频内容具有可靠性。

由于对代码转换或者第５种情形里的变化没有一个很精确的界限，鉴别者只能说明图像的某个区域“极有可能”受到恶意篡改。可以用不同的容限值来观察鉴别结果，如果τ＝０时，鉴别者会认为图像中的大部分子块都被修改过。随着τ值的增大，可以看到大部分虚告警消失了，只剩下真正受到恶意篡改的子块被鉴别者检测到。

包含在数字签名的时间码可以用来检测时序的变化并且可以说明特定时间里图像的像素值。

５结束语

文中提出的鉴别技术，是将ＪＰＥＧ图像鉴别扩展进了ＭＰＥＧ视频领域。通过上述的鉴别技术，可以有效鉴别ＭＰＥＧ视频的合法性及有效性，从而保证了生产者和消费者的合法权益。这种视频鉴别技术可以广泛用于有线电视、影视制作等领域，具有很强的现实意义。

参考文献

１ＷＤｉｆｆｉｅａｎｄＭＥＨｅｌｌｍａｎ．ＮｅｗＤｉｒｅｃｔｉｏｎｓｉｎＣｒｙｐｔｏｇ-ｒａｐｈｙ．ＩＥＥＥＴｒａｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，Ｎｏｖ，１９７６，２２（６）：６４４～６５４

２ＭＳｃｈｎｅｉｄｅｒａｎｄＳＦＣｈａｎｇ．ＡＲｏｂｕｓｔＣｏｎｔｅｎｔＢａｓｅｄＤｉｇｉｔａｌＳｉｇｎａｔｕｒｅｆｏｒＩｍａｇｅＡｕｔｈｅｎｔｉｃａｔｉｏｎ．ＩＥＥＥＩｎｔｅｒ-ｎａｔｉｏｎａｌＣｏｎｆｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｌａｕｓｓａｎｅ，Ｓｗｉｔｚｅｒ-ｌａｎｄ，Ｏｃｔ１９９６

３ＲＧＶａｎＳｃｈｙｎｄｅｌ，ＡＺＴｒｉｋｅｌａｎｄＣＦＯｓｂｏｒｎｅ．ＡＤｉｇ-ｉｔａｌＷａｔｅｒｍａｒｋ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｏｎＩｍａｇｅＰｒｏ-ｃｅｓｓｉｎｇ，Ａｕｓｔｉｎ，Ｔｅｘａｓ，Ｎｏｖ１９９４

４ＣＹＬｉｎａｎｄＳＦＣｈａｎｇ．ＡＲｏｂｕｓｔＩｍａｇｅＡｕｔｈｅｎｔｉｃａｔｉｏｎＭｅｔｈｏｄＤｉｓｔｉｎｇｕｉｓｈｉｎｇＪＰＥＧＣｏｍｐｒｅｓｓｉｏｎｆｒｏｍＭａｌｉ-ｃｉｏｕｓＭａｎｉｐｕｌａｔｉｏｎ．ＣＵ／ＣＴＲＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ４８６－９７－１９，ｄｅｃ１９９７

５ＣＹＬｉｎａｎｄＳＦＣｈａｎｇ．ＡＲｏｂｕｓｔＩｍａｇｅＡｕｔｈｅｎｔｉｃａｔｉｏｎＭｅｔｈｏｄＳｕｒｖｉｖｉｎｇＪＰＥＧＬｏｓｓｙＣｏｍｐｒｅｓｓｉｏｎ．ＳＰＩＥＳｔｏｒａｇｅａｎｄＲｅｔｒｉｅｖａｌｏｆＩｍａｇｅ／ＶｉｄｅｏＤａｔａｂａｓｅｓ，ＳａｎＪｏｓｅ，Ｊａｎ１９９８．

６张文政等．计算机网络安全技术．电脑技术信息．１９９９，（６）

７余崇智等编译．运动图像及其伴音的压缩与编码——ＭＰＥＧ１．南京：南京大学出版社，１９９５

８钟玉琢等译．运动图像及其伴音通用编码国际标准——ＭＰＥＧ２．北京：清华大学出版社，１９９７

（收稿日期：１９９９－０９－１６）

[摘要] 文章讨论了在各种代码转换情形下（包括动态速率形成、重新量化、帧类型变换以及重新编码等）鉴别ＭＰＥＧ视频的问题，并提出一种稳健的视频鉴别系统。

[关键词] 视频鉴别内容验证ＭＰＥＧ数字签名

[Abstract] Ｔｈｅｐａｐｅｒｆｉｒｓｔｄｉｓｃｕｓｓｅｓｉｓ-ｓｕｅｓｏｆａｕｔｈｅｎｔｉｃａｔｉｎｇＭＰＥＧｖｉｄｅｏｕｎｄｅｒｖａｒｉｏｕｓｔｒａｎｓｃｏｄｉｎｇｓｉｔｕａ-ｔｉｏｎｓ，ｉｎｃｌｕｄｉｎｇｄｙｎａｍｉｃｒａｔｅｓｈａｐ-ｉｎｇ，ｒｅｑｕａｎｔｉｚａｔｉｏｎ，ｆｒａｍｅｔｙｐｅｃｏｎ-ｖｅｒｓｉｏｎａｎｄｒｅｅｎｃｏｄｉｎｇ，ｔｈｅｎｐｒｏ-ｐｏｓｅｓａｒｏｂｕｓｔｖｉｄｅｏａｕｔｈｅｎｔｉｃａｔｉｏｎｓｙｓｔｅｍ．

[Keywords] ＶｉｄｅｏａｕｔｈｅｎｔｉｃａｔｉｏｎＣｏｎｔｅｎｔｖｅｒｉｆｉｃａｔｉｏｎＭＰＥＧＤｉｇｉｔａｌｓｉｇ-ｎａｔｕｒ

本期相关文章

脚踏实地勇攀高峰——记中兴通讯南京研究所的技术创新之路

多媒体通信网

中国现代化远程教育网的建设与前景

江苏省数据与多媒体通信网的建设与业务发展

多媒体通信的新途径——Ｈ．３２３ｖ２系统

公众多媒体通信网、ＩＰ地址、域名

光密集波分复用技术2