登陆注册
13955600000008

第8章 多媒体数据压缩编码技术(1)

音频、视频和图像处理能力是多媒体系统的重要技术指标。数字音频、视频和图像的表示需要大量的存储空间,同时这些信息要求计算机实时或准实时地进行处理。多媒体系统处理的对象及功能决定了多媒体计算机必须具有高速信号处理能力、大容量内存、足够的传输频带宽度等功能。为了解决存储、处理和传输多媒体数据的问题,除了提高计算机本身的性能及通信信道的带宽外,更重要的是对多媒体数据进行有效的压缩,以便以最小的时间和空间来传输和储存多媒体数据。

本章主要讨论多媒体数据压缩编码的基本概念,常用音频、图像信号压缩编码及解压方法,以及静态、动态图像信号的处理技术。

3.1数据压缩编码的基本概念

3.1.1数据压缩的可能性及意义

1.数据压缩的可能性

音频信号和视频图像的数字化数据可以进行数据压缩编码是基于以下两种事实。

1)信息的冗余度

无论是话音信息还是图像信息都有较大的冗余度。按采样定理,采样频率fs与信号的最高频率fm应满足fs≥2fm,为使离散信号能完全复现原连续信号,一般选择fs>2fm,即都是过采样,说明采样的离散数据具有冗余度。

对于连续过程而言,离散化时都以信号的上限频率为依据,但实际上信号并不是总是或经常处在上限频率(fm)上,也就是话音信号并不始终是那么活跃,信号的能量主要集中在低频部分。以fm为依据选择采样频率,只是从“无损”信息的角度出发,若允许在一定范围内“有损”(失真),那么使fs≥2fm自然就有了冗余度。说得极端一点,若信号在一段时间内不变,那么在这一段时间内只需一个采样点就可以了。

2)信号的相关性

相关就是联系,或两个信号之间的相似性。定义同一个信号前后时刻的相关性就是自相关函数ρxx(≤1);定义两个信号间的相似程度就是两个信号的互相关函数ρxy(ρxy≤1)。

2.数据压缩的意义

在信息无损或损失在一定允许范围内进行数据压缩,显然由于数据的减少,自然减小了数据的存储容量,同时,有利于数据的传输,降低了对数据传输通道的要求。由于数据量减少,因此,若数据速率(信道带宽)一定,则可以减少传输时间;若传输时间一定,则可以降低数据速率。数据速率降低,就可以增加数据(码元)的宽度,传输信号的频带降低,自然就降低了对信道带宽的要求。

3.1.2信息的量度

1.信息的含义

消息:是由符号、文字、数字或语音组成的表达一定含义的一个序列,如一份电报和报纸上的一段文字。消息是信息的载体,是表达信息的工具。

信息:是消息的内涵,是消息中的不确定性内容。

2.信息的量度

1)信息量及熵

(1)信息量的定义

设信源x由属于集合Am={a1,a2,…,am}的m个可能的符号产生,若信源事件aj的概率为P(aj),则定义事件aj的信息量I(aj)I(aj)=-logP(aj)

作为事件aj所包含的信息量的量度,称为自信息。

单位:取2为底的对数,则单位为比特(bit);取e为底的对数,则单位为奈特。

从信息量的定义可以看出,信息是事件aj的不确定因素的度量。事件发生的概率越大,事件的信息量越小;反之,一个发生的可能性很小的事件,携带的信息量就很大。

例如:在32个数码中任选1个数码时,设每个数码选中的概率是相等的,则

P(aj)=132

那么,任一数码的信息量为

I(aj)=-lb132=lb25=5bit

(2)信源的熵

一个通信系统并非只传送1个符号,而是多个符号,这就需要定义整个信源符号的平均信息量的大小。通常把自信息的统计平均值--数学期望。

H(x)=-mj=1P(aj)lbP(aj)(31)。

即信源x中每个符号的平均信息量,称为信源x的熵。

当信源x中的每个符号是等概率的且是独立的时候,平均信息量最大,此时。

P(aj)=1m,j=1,2,…,m

代入式(31)得

H(x)=Hmax=lbm

例如:若信号x{a1,a2}的概率分别为P(a1)=0.9,P(a2)=0.1,则符号的平均信息量,即信源x的熵为。

H(x)=-(0.9×lb0.9+0.1×lb0.1)=0.467bit

若a1,a2的概率P(a1)=P(a2)=0.5,则信源x的平均信息量达到最大,即。

H(x)=Hmax(x)=lb2=1bit

所以二进制1位数据(0/1)的每1位的信息量为1比特。

2)冗余度

先看一个例子,设一幅图片有4个灰度级S={A,B,C,D},这4个灰度级所出现的概率分别为P(aj)={0.6,0.2,0.06,0.14},则。

H(x)=-(0.6×lb0.6+0.2×lb0.2+0.06×lb0.06+0.14×lb0.14)=1.547bit。

即其平均信息熵为1.547bit。这说明表示这4个灰度级所使用的最少平均位数为1.547bit。

平均信息熵是一种理论上的最佳编码的平均码长。平常使用的一般为自然码编码,表示每一事件的位数是相同的。如果对A、B、C、D这4个灰度级采用自然码进行编码,即每一个灰度级用两位二进制表示,则4个灰度级的平均码长为2,而平均信息熵是理论上的最佳编码的平均码长,为1.547位。显然,自然码编码和理论上的最佳编码存在一定的差距,这一差距常用冗余度r来表示:

r=原始图像平均码长原始图像平均信息熵-1=21.547-1≈0.29

冗余度表示原始图像编码中所包含冗余信息的多少,应越小越好。在本例中,灰度级的自然码编码长度为2bit,平均信息熵是理论上的最佳编码码长,为1.547bit,显然,在自然码编码中包含有冗余信息。如何找出一种编码方法,使其平均码长尽量接近信息熵,是图像编码所追求的目标。

另外,如果4个灰度级是等概率出现的,均为0.25,则信源的平均信息熵为

H(x)=-4j=1P(aj)lbP(aj)=2bit

即在等概率的情况下,自然码编码的冗余度为0。

3.1.3数据冗余及其类型

冗余是指信息存在的各种性质的多余度。数据冗余,就是数据量(D)与其表达的信息量(I)不相等的现象。

设冗余量为du,它们的关系即可表示为

I=D-dudu≥0如果du=0,表示数据不存在冗余,不需也不能对数据进行压缩。需要并能够对数据进行有效压缩的条件是du0。

多媒体数据在数字化后存在各种形式的数据冗余,常见的有以下几种类型。

1.空间冗余

规则物体和规则背景的表面物理特性都具有相关性,数字化后表现为数字冗余。例如:一幅图片的画面中有一个规则物体,其表面颜色均匀,各部分的亮度、饱和度相近,把该图片作数字化处理时,生成位图后,很大数量的相邻像素的数据是完全一样或十分接近的,完全一样的数据当然可以压缩,而十分接近的数据也可以压缩,因为恢复后人也分辨不出它与原图有什么区别,这种压缩就是对空间冗余的压缩。

2.时间冗余

序列图像(如电视图像和运动图像)和语音数据的前后有着很强的相关性,经常包含着冗余。在播出该序列图像时,时间发生了推移,但若干幅画面的同一部位没有变化,变化的只是其中的某些地方,这就形成了时间冗余。

3.统计冗余

空间冗余和时间冗余是把图像信号看做概率信号时所反映出的统计特性,因此,这两种冗余也称为统计冗余。

4.信息熵冗余

信息熵冗余也叫“编码冗余”。所谓信息熵,是指一团数据所携带的信息量,信息熵冗余则在一团数据的内部产生。信息量是指从N个相等的可能事件中选出一个事件所需要的信息度量和含量,即在N个事件中辨识特定的一个事件的过程中需要提问“是或否”的次数。将信源所有可能事件的信息量进行平均,即为信息的“熵(entropy)”,熵是平均信息量。信息熵可表示为

E=-k-1i=0P(xi)lbP(xi)

式中,E为信息熵,k为数据组中数据的种类或码元数,P(xi)为码元xi发生的概率。

一组数据的数据量显然等于各记录码的二进制位(bit)数(编码长度)与该码元出现的概率的乘积之和,即

D=k-1i=0P(xi)b(xi)

式中,D为数据量,k和P(xi)同上,b(xi)为分配给码元xi的比特数。

若要求不存在数据冗余,即冗余量du=D=E,则需有

b(xi)=-lbP(xi)

由于实际中很难预估出{P(x0),…,P(xk-1)},因此,为使处理上简单,一般把所有码元记录成相同的二进制位数b(x0)=b(x1)=…=P(xk-1)。这样所得的D必然大于E,即du=D-E0。这种因码元编码长度的不经济而引起的数据冗余称为熵冗余,又叫编码冗余。

例如,从64个数中选出某一个数,可先问“是否大于32?”消除半数的可能,这样只要6次就可选出某数。这是因为每提问一次都会得到1比特的信息量。因此,在64个数中选定某一数所需的信息量是lb64=6(bit)。

5.结构冗余

数字化图像中物体表面纹理等结构往往存在着数据冗余,这种冗余叫结构冗余。若一幅图像中有很强的结构特性,如布纹和草席图像等,其纹理很规范清晰,于是它们在结构上存在着极大的相似性,也就存在着较强的结构冗余。

6.知识冗余

由图像的记录方式与人对图像的知识差异而产生的冗余称知识冗余。人对许多图像的理解与某些基础知识有很大的相关性。许多规律性的结构人可以由先验知识和背景知识得到。而计算机存储图像时还得把一个个像素信息存入,这就形成了冗余。

7.视觉冗余

人类的视觉系统对于图像场的注意是非均匀和非线性的,并不是对图像中的任何变化都能感知,而在实际图像中存在大量的人类的视觉系统不能察觉的细节变化的数据。事实上,人类的视觉系统的一般分辨能力为106灰度级,而一般图像的量化采用的是108灰度级。这种从人类视觉系统的分辨能力上看,图像数据中存在的数据冗余,叫做视觉冗余。

8.其他冗余

除了前面所述的几种数据冗余以外,由于图像空间的非定常特性而产生的冗余,以及其他种类的冗余,均属于其他冗余之列。

3.1.4数据压缩编码方法分类

数据压缩方法很多,从不同的观点出发可以有不同的划分方法。

1.无损压缩与有损压缩

根据解码后的数据与原始数据是否一致,压缩后是否损失信息,可以把数据压缩编码划分为无损压缩和有损压缩两类。

有损压缩使信息源的熵减少,也就是在数据压缩过程中损失掉一部分信息量。

无损压缩是一种可逆处理,即压缩过程没有损失信息源的熵,压缩仅仅去掉了一些冗余的信息。

2.按压缩原理进行分类

根据压缩原理进行分类,可以把数据压缩编码分为预测编码、变换编码和信息熵编码等几类。

1)预测编码

预测编码是针对统计冗余进行压缩的,常运用“时间序列分析”的概念解决动态系统的输出问题。其基本原理是:根据离散信号之间存在着一定关联性的特点,利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差进行编码,由于差值比实际值小得多,从而达到压缩数据量的目的。预测编码的典型压缩方法有PCM、DPCM、ADPCM等。

2)变换编码

变换编码也是针对统计冗余进行压缩的。所谓变换编码,是指先对信号进行某种函数变换,从一种信号空间变换到另一种信号空间(如将图像光强矩阵的时域信号变换到频域的系数空间上)进行处理的方法。若在空间上具有强相关的信号,映射在频域上就是某些特定区域内能量集中的部分,或者是系数矩阵的分布具有某些规律,从而利用这些规律分配频域上的量化比特率,达到数据压缩的目的。常用的变换编码的方法有KL变换和余弦变换(DCT)等。

3)信息熵编码

信息熵编码的目的是减少符号序列中的冗余度,提高符号的平均信息量。信息熵编码是根据符号序列的统计特性,寻找某种方法把符号序列变换为最短的码字序列,使各码元承载的平均信息量最大,同时又能保证无失真地恢复原来的符号序列,即要保存信息的熵值。信息熵编码最常用的方法有哈夫曼(Huffman)编码、游程编码和LZW编码等。

3.1.5数据压缩编码方法的选择

数据压缩方法有许多种,可以从不同的侧面来比较这些数据压缩方法的优劣,例如,实现的复杂程度、所付出的代价的高低,以及压缩系统的体积、重量及误差等,但最重要的指标是指在一定误差或质量下的压缩比。常用的有如下两种定义。

①采样压缩比φd:

φd=压缩前输入的总采样数压缩后输出的总采样数

由该定义可见,φd一定是大于1的数,当然越大越好。由于我们所研究的信号都要数字化,为存储和传送这些数字化信号,通常还要增加一些信息,以便顺利地解压。因此,下面的比特压缩比φb更为有用。

②比特压缩比φb:

φb=压缩前输入的总比特数压缩后输出的总比特数

根据上式及前面的解释,φb通常要比φd小,而且φb更能反映实际情况。因此,当提到压缩比而又没有作特别说明时,通常指的就是比特压缩比φb。

在数据压缩系统中,人们很关心的一个问题就是利用已压缩的数据重建原始数据所带来的误差,这是衡量某种压缩方法好坏的又一重要标志。在考虑重建误差时,总是局限于这种误差是由压缩方法产生的,而认为其他部分都是理想的。只有这样,才能更好地对不同压缩方法的误差进行比较。常用的方法有以下几种。

①均方根误差,如果原始信息源数据为集合,用压缩后数据经解压重建的原始数据为集合,则两者的均方误差和均方根误差分别表示为。

②峰值误差:原始数据与重建数据间差值的最大绝对值。用下式表示:

③汉明距离:汉明距离的定义为

以上是衡量数据压缩性能的方法。很显然,这是对有损压缩而言的。原则上说,无损压缩是没有误差的。

另外,还必须强调,在信号的采集、压缩、存储(或传输)以及信号的解压重建、恢复原始信号过程中,压缩和解压只是其中一个中间处理环节,因此,某种信号质量的衡量最终会与压缩方法的误差有关。

3.2常用音频信号压缩编码及解压方法

本节先介绍一些常用于音频信号的压缩方法。为了使读者对压缩方法有一个大致的认识,现将常见的音频数据压缩方法罗列于图31中。其中有一些是可以用于视频信号压缩的。

音频信号的编码,大致可以分为波形编码和参数编码两种方法。

①波形编码的基本思想是在满足采样定理的前提下,采样量化,并使编码以后的数据量尽可能小,译码以后的输出信号尽可能逼近原来的输入音频信号的波形,如PCM、DPCM、DM、ADPCM等。

②参数编码(分析合成编码)主要是针对话音信号,抽取话音信号的特征参数,然后进行编码,译码时激励相应振荡器通过喇叭发声。

同类推荐
  • 互联网创业前奏曲(第二部)——网站运营之人性、策略与实战

    互联网创业前奏曲(第二部)——网站运营之人性、策略与实战

    本书是《互联网创业前奏曲》系列的第二本书,是作者多年互联网实践经验和业界观察的总结,是国内罕有的关于互联网网站运营和用户心理结合的书籍,用通俗的语言阐述互联网运营背后的人性驱动。你想互联网创业吗?你是否在为找不到好的互联网运营策略和方法而发愁?你非常想了解互联网行业?你是否在为自己不了解互联网运营而苦恼?本书针对这些问题列举了很多互联网运营的案例,帮你制定运营策略,更好的修炼和提升运营功力。
  • SEO智慧

    SEO智慧

    本书不仅是系统讲述搜索引擎优化(SEO)的原理、技法、思维、经验的畅销作品,而且论述了市场学、营销学、心理学怎样与搜索营销形成综合战略的经典著作。从说明网站的搭建该怎样围绕搜索引擎优化开始,到网站优化的具体策划和技术细节,再到搜索营销的持续开展,说明打造投资回报率高的网站应该怎样具备必需的搜索营销思维和战略做法,是作者12年网站营销经验,特别是搜索引擎优化(SEO)实现营销方面的技术和实践总结。
  • 中国3D打印的未来

    中国3D打印的未来

    自2012年以来,有关3D打印的报道屡见报端,这一新型制造技术引起了全世界的广泛关注。《中国3D打印的未来》作者、中国3D打印技术产业联盟秘书长罗军认为,中国从20世纪90年代初开始涉足3D打印技术,并取得了巨大进展,但与国外同行相比仍存在一定差距。特别是中国3D打印企业普遍存在“小而散”、各自为政的现象,如何发挥整合优势、抱团发展是目前亟需解决的问题。如果能够加强同行合作,抱团发展,形成合力,相信3D打印会成为唯一一项中国有可能赶超世界先进水平的技术。
  • 三维动画审美谈

    三维动画审美谈

    数字时代,美的标准充满更多的不确定性。而三维动画以数字图像形式成为这个图时代的代表。三维动画及三维图像不仅仅是由于应用了仿真数字图像技术而带来的虚拟空间,还有更多的是由三维图像技术所引发或引导的被扩展的图像技术,这些技术无不应用在现代视觉设计领域的各个方面,并且,由此引起社会的追热,引起审美观念的改变。这些改变是在进行中的,变化中的,也是在发展中的。对于未知的美,我们做的只是追寻和记录,我们不知道以后的美将会是什么样,尽管我们苦苦追寻,孜孜探讨,同时也在默默审视。我们在追寻中享受美,在探讨中认知美,在审视中体验美……
  • 组建家庭局域网与无线网

    组建家庭局域网与无线网

    该书是“快乐驿站”丛书之一,是一本精心为初级家庭电脑用户打造的局域网与无线网组建入门与提高的图书,同时还涉及一些办公网络的组建内容。《组建家庭局域网与无线网》以局域网和无线网的功能、设置以及实际应用为导向,用生动的实例、形象的图解和幽默的语言循序渐进地介绍了局域网和无线网的概念、产品、设计、组建、调试与维护的相关内容。
热门推荐
  • 末日凡心

    末日凡心

    活着的人终将饱受欺凌和折磨,那死去的也绝不可能超生,他们将永远以这样永生的方式长存。挣扎吧羔羊,要么化身捕食的狼,要么就成为永恒不死的一员。。。。。哈哈呵.....
  • 神魔帝国

    神魔帝国

    上古神魔在一场毁天灭地的争斗之后两败俱伤。大战的威能封印了神魔大陆上所有的魔法力量。不仅如此,大战的破坏力亦将神魔大陆割裂成五大板块,不相往来。五千年之后,随着上古神魔传承人的不断觉醒,他们通过各自手段破解了上古神魔的封印,唤醒了上古神魔最原始的力量。这些青出于蓝而胜于蓝的晚辈后生能够控制好这些毁天灭地的威能么?他们又如何避免神魔大陆不被再次毁于一旦?
  • 皇帝的复国大计

    皇帝的复国大计

    夏华从地球而来,意外穿越成了为一国之帝,可他这个皇帝还没有享受后宫三千佳丽,竟然就面临了篡位的危机?偶然建立的召唤阵,古老而恢宏的咒语,召唤出来了,恐怖强大的……额,女装大佬?夏华扶额,他这是召唤了个爹?
  • 重生之超银河

    重生之超银河

    一个少年得神秘老者赠送银河火花及系统,又重生于出乎他意外的火影世界,这个世界会有何变化?
  • 剑心种魔

    剑心种魔

    天才少年,却被认为是修炼废柴,眼看十数年黄金修炼期就此荒废,君莫叹不甘!自行修炼,强行融合阴阳二道,自学成才展露锋芒!可天不随人愿,刚刚学有所成,却被人陷害,被自己的亲爷爷废去一身修为!潜龙于渊必有飞天之时,挫折中,唯有一剑在手!
  • 寓念

    寓念

    天地虽大,何处容身?何为正义,何为善恶?正又如何,魔又如何?我只想安安静静过平凡的日子,怎奈何事与人违?嘴边挂着正义,可实际上呢?在我眼里,没有正魔之分,你们所有人都一样!
  • 只顾旭日暖阳

    只顾旭日暖阳

    【其实爱一个人很容易,遇到对的人,就这样一见钟情,二见倾心,三见相伴不相离。】他们第一次见面在灾区,她是心理辅导的专家,他是灾区医生,他的目光停留在那个即使灰头土脸也笑容依旧的女孩身上,就此郁暖的名字写进了纪言旭的生命;第二次见面在医院,她是舍己救人的英雄,而他是替英雄包扎的医生,她爱上了他的字,古语有云“字如其人”,郁暖深以为然;第三次见面在餐厅,她在相亲求助于他,从此,那个叫郁暖的女孩缠上了叫纪言旭的男孩。很久很久以后,她问:如果郁暖爱纪言旭是命中注定,那纪言旭对郁暖呢?他轻抚她的脸颊,答:已深入骨髓,不可自拔。有一条路叫做余生,上面布满荆棘,风雨飘渺,而我希望和你一起走下去。
  • EXO之少女的心

    EXO之少女的心

    他们十二个是死党,可是当她出现后,十二个死党变得越来越仇视彼此,她是天使?还是恶魔?
  • 轮回武装

    轮回武装

    这里是地狱也是天堂,幻想在这里成为真实。呈环形阶梯排列的九层光圈,一次次的轮回与生死间的徘徊带来了什么?立足于九层之上的青铜巨门通往哪里?这里存在的意义究竟是什么?人性的磨砺,生命的进化,强力的武装,残酷的现实。我...一定会活下去。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!