当前位置: 首页 > >

最新编码技术在多媒体信息中的应用

发布时间:

最新编码技术在多媒体信息中的应用
摘要:多媒体信息是未来人类获取信息最主要的载体,因此它已成为目前世界
上技术开发和研究的热点。 视频信息作为多媒体信息中最被关注、数据量最大的 一员, 现在也正面临着一场其意义不亚于从模拟到数字的技术进步革新:从传统 的矩形 DCT 变换编码到根据视频内容、 划分对象、 分别变换编码的新的编码方法。

一、 传统的编码方式
传统的视频编码是以视频信号的数字量为编码对象的,与视频信息的内容 无关,无论是 M-JPEG、MPEG-1 还是 MPEG-2,都是以 DCT 矩形变换块为变换编 码单元,对 DCT 块内图像的亮度和色度进行特征取样,提取像素;采用帧间编 码、运动估测技术,在参考帧帧内 DCT 编码的基础上,对 DCT 块内图像的像素 特征进行差值预测编码。基于矩形 DCT 编码的视频编码在设计思想上只考虑到 对信号数据进行处理的需要(比如小的比特率以利于传输、高的比特率以保证 质量) 但未考虑视频信息--图像内容本身的含义和重要性,以及视频信息应用 , 者的主观需求(比如部分内容的提取功能) 。另外,这种基?quot;块"的压缩算 法在低码率时容易产生"方块效应"和"抽帧", 大大缩小了视频信息的应用领域。 小波变换是一种新的变换编码方法,它与 DCT 变换相比,考虑到了视频信号 对不同应用环境的自适应性(不同的清晰度与比特率) ,可以将基础图像层与增 强图像层分离编码传输, 用户可根据实际情况选择是否打开增强图像层。但无论 用户选择是或否,被传送的视频信息却都是一样的。

二、 基于内容对象的编码
1、 VO 与 VOP 概念的引入 传统的视频编码方式是将整个视频信号作为一个内容单体来处理, 其本身不 可再分割, 而这与人类对视觉信息的判别法则,也就是大脑对视神经导入的视觉 信号的处理方法是完全不同的。 这就决定了我们不可能将一个视频信息完整的从

视频信号中提取出来,比如:将加有台标和字幕的视频恢复成无台标、字幕的视 频。解决问题的惟一途径就是在编码时就将不同的视频信息载体--视频对象 VO (Video Objects)区分开,独立编码传送,将图像序列中的每一帧,看成是由 不同的 VO 加上活动的背景所组成。VO 可以是人或物,也可以是计算机生成的 2D 或 3D 图形。VO 具有音频属性,其属性赋值可能?quot;有"或者是"无"。但音频 的具体内容数据是独立于视频编码、传输的。VO 概念的引入,更加符合人脑对 视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化。提高了 视频信号的交互性和灵活性, 使得更广泛的视频应用和更多的内容交互功能成为 可能。 现代图像编码理论指出, 人眼捕获图像信息的本质是"轮廓-纹理",即人眼 感兴趣的是 VO 的一些表面特性,如形状、运动、纹理等。VO 的表面往往是不规 则的、千变万化的,但可将其视为一定视角下,n 个形状规则的、具有一定纹理 的剖面的组合的连续运动,这些剖面的组合称为视频对象面 VOP(Video Object Profile)。 VOP 描述了 VO 在一定视角条件下的表面特性。VOP 的编码主要由两部 分组成:一个是形状编码,另一个是纹理和运动信息编码。VOP 纹理编码和运动 的预测、补偿在原理上同 MPEG-2 基本一致,而形状编码技术则是首次应用在图 像编码领域。 2、新的编码技术 合成 VO 的独立编码 在以前,2D 或 3D 动画被看作是视频的一部分,并一概 以视频的方法来处理。实际上,根据合成 VO 的合成机理和特性,大部分合成 VO 都可以用通用的有关图形文本的多种表达方式来描述。非复杂性合成 VO 将被视 为一种独立于视频的数据类型来编码,并定义了其描述框架、通用的数据流结构 和灵活的接口。 而复杂性合成 VO 和自然 VO 的编码方法, 将采用以下的编码方法。 基于矩形窗口的 VOP 分割 考虑到与现有标准的兼容,目前已得到应用的 VO 编码技术,比如 MPEG4,仍采用了基于矩形窗口的内容分割法。编码时,首先利 用像素特征统计, 将每一个 VOP 都限定在一个矩形窗口内,称之为 VOP 窗口(VOP Window),取窗的原则为:长、宽均为 16 像素的整数倍(便于对现有标准的兼容

和将来的扩展) ,同时保证 VOP 窗口中非 VOP 的宏块数目最少。目前标准中的视 频帧可认为是一个无 VOP 的特例,在编码过程中将形状编码模块屏蔽掉就可以 了。在一个 VOP 窗口内,VOP 剖面的形状也是采用 8×8 像素的矩形形状。针对 不同的 VOP,可以根据不同的应用场合和运动、变化的特点,采用固定的或可变 的 VOP 帧频(即 VOP 刷新频率) 。 矩形窗口分割法并不能体现 VOP 的具体形状信息。 为了确认采用矩形窗口分 割法的 VOP 的形状信息, 就引入了形状编码技术。形状编码其实并不是什么新技 术,它在计算机图形学、计算机视觉领域早有应用。而目前的视频编码标准中的 位图技术其实就是形状编码的简单特例。位图采用矩阵的形式来表示二值(0 或 1)的形状信息,具有较高的编码效率和较低的运算复杂度。VOP 的形状信息有 两类:边缘信息和灰度信息。边缘信息用 0、1 来表示 VOP 的形状,0 表示非 VOP 区域,1 表示 VOP 区域。对于包含一定透明度的 VOP 区域,可以用灰度信息(取 值 0~255 之间)来表示透明程度,其中 0 表示完全透明,255 表示完全不透明。 对于模糊边缘部分, 可将其视为灰度信息从周围已知 VOP 区域的灰度值向 0 值的 过渡区域,采用内插法确定其形状信息。 基于小波变换的 VOP 分割 基于矩形窗口的 VOP 分割依旧存在"块效应"问题, 而基于小波变换的 VOP 分割则可以很好的解决这个问题, 而且由于这种分割方法 的本身就包含了 VOP 的形状信息,所以无需另对形状信息进行判别与编码。基于 小波变换的 VOP 分割方法是目前最为活跃的视频编码课题研究领域, 各种算法不 断的被发表,但基本上可以划分为两类方法: 1、利用图像灰度特征分割:不同的图像具有不同的灰度分布,利用小波变 换,将图像变换到小波域,产生各层、各子带图像。小波变换后,大部分的能量 是集中在低频子带图像上, 即大面积的*均灰度区域信息主要在低频子带图像中 体现。根据信息论的原理,确定多个灰度阈值,可以将具有不同灰度的 VOP 从低 频子带图像中分离。同时再利用高频子带图像以及模糊数学模型,确定每一个 VOP 的边缘信息。利用图像灰度特征分割的小波变换,是沿扫描方向的单方向变 换。

2、利用图像纹理特征分割:纹理是一种局部特征反复出现的结果,它体现 了图像的局部频域信息。对于一幅数字图像,进行多方向的小波变换是可行的, 比如对一帧画面进行垂直方向或对角线方向的小波变换。 经过多种小波变换后可 得到不同方向的各子带图像, 它们各自蕴涵着不同纹理的局部频谱信息和纹理走 向等信息。 对具有相同频谱特征的图像局部进行聚类分析,并根据纹理频谱和纹 理走向确定该聚类的纹理边缘。 根据信息论原理和运动估测,将运动矢量具有相 关性的聚类二次归类于不同的对象(即 VOP) ,并影射成不同灰度显示。多级小 波变换的结果最多可线性的影射成 0~255 灰度级显示。进行小波变换的方向越 多,各方向的夹角越小,图像分割也就越准确,但计算量也随之迅速膨胀。根据 局域纹理中心频率的变化自适应地选择小波变换的级数(几个方向的变换)和方 向,有助于在图像分割的准确性和计算量之间达到*衡。 无论是哪一种方法, 当得到不同 VOP 的不同灰度表示之后,通过类似于键技 术的多通道处理,即可得到多个原始的彩色 VOP。目前实验表明,基于小波变换 的图像分割在边界上仍有些模糊,但总体效果还是相当满意的,达到了分割纹理 图像的目的。 VOP 运动信息编码和运动补偿 人眼在观看图像时,会自动跟踪人所感兴趣 的 VOP。即人看的不是时间轴上的信息,而是 VOP 的运动轨迹---光流轴上的信 息。 光流轴是 VOP 上的一点在活动图像上的运动轨迹,它在不同的帧中位于不同 的空间位置,其意义在于:VOP 自身的各种变化都将映射于光流轴上的一点。光 流轴信息的独立编码将带来诸多好处: (1)在编码时,对于刚性 VOP,由于它在 运动中不会发生形状和纹理上的变化,故该 VOP 只需要完成一次采样、编码,而 后就只需发出几个运动矢量指明它的光流轴即可;对于非刚性 VOP,只需在发生 变化时才需要重新采样、 编码, 这就使得不同的 VOP 采用不同的 VOP 帧频成为可 能,将编码的数据率最低限度的降低。 (2)VOP 在运动中的各种变化都将"留迹" 于光流轴,当在进行运动补偿时,比如不同制式之间的转换或者慢动作的制作, 就可以根据光流轴映射信息,采用内插法得出时间轴上某一确定点的 VOP 状态, 达到无损转换的目的。 在时间轴上, (3) 简单的将一个图像序列的两路信号叠加,

随即噪波和图像的活动部分都得不到增强;若在光流轴上进行信号叠加,活动图 像的降噪问题就得到了简单解决。 VOP 的运动估测是指:分析两个或更多帧上的 VOP,确定光流轴,以判断下 一帧中 VOP 可能出现的位置。VOP 的运动补偿是指:根据 VOP 光流轴的取向和光 流轴上 VOP 自身变化得映射信息,矫正 VOP 在时间轴上的运动矢量。运动预测和 运动补偿技术可以去除图像信息中的时间冗余成分,VOP 的运动信息编码可视为 从像素向任意形状的 VOP 的延伸。 纹理编码 在已得到实际应用的 MPEG-4 中,VOP 的纹理编码基本上仍采用基 于 8×8 像素块的 DCT 方法,有 3 种模式:帧内编码模式(I-VOP)、帧间预测编码 模式(P-VOP)和帧间双向预测编码模式(B-VOP)。编码时,对于完全位于 VOP 内的 像素块, 则采用经典的 DCT 方法; 对于完全位于 VOP 之外的像素块则不进行编码; 对于部分在 VOP 内,部分在 VOP 外的像素块则首先采用图像填充技术来获取 VOP 之外的像素值,之后再进行 DCT 编码。 依据视觉特性的纹理编码目前仍处于理论研究阶段,其目标是:建立常见纹 理局部特征符号集,定义描述纹理分布、走向的多媒体语言。以人脸为例:人脸 定义参数(FDP)描述了特定人脸纹理形状模型与通用人脸模型之间的差别,通 过接收到的各种 FDP,能把通用的人脸模型变换成由其形状和纹理确定的特定人 脸。人脸动画参数(FAP)描述了特定的人脸表情与中性表情的变化关系,通过 接收到的各种 FAP 能生成人脸的各种表情以及与声音同步的嘴唇活动等。 这样的 合成编码不仅可极大地提高编码效率(可获得 1kbps 的超低码率) ,而且为制作 新的人脸等对象提供了方便。 分级编码 多媒体的应用场合具有不同的信道带宽、处理能力、显示能力及 用户需求,要求在解码端支持时域、空间及质量的上伸缩性,即分级编码。分级 编码可以通过视频对象层 VOL(Video Object Layer)的数据结构来实现。每一种 分级编码都至少有 2 层 VOL,低层称为基本层,高层称为增强层。空间伸缩性可 通过增强层强化基本层的空间分辨率来实现, 因此在对增强层中的 VOP 进行解码 之前,必须先对基本层中相应的 VOP 进行解码。同样对于时域伸缩性,可通过增

强层来增加视频序列中某个 VO(特别是运动的 VO)的帧率,使其与其余区域相比 更为*滑。

三、 新的技术标准--MPEG 4
首次采用 VO 编码技术的视频编码标准是由 MPEG 4。MPEG 4 于 1999 年年初 正式成为国际标准(标准号为 ISO/IEC 14496),在 1999 年 12 月的后继版本中增 加了可变形、半透明视频对象及其工具的先进功能,它进一步提高了编码效率, 并与第一版反向兼容。 1、MPEG 4 标准的构成 1) DMIF(The Delivery Multimedia Integration Framework) :多媒体传 送整体框架协议。MPEG-4 标准将众多的多媒体应用集成于一个完整的框架内, 旨在为多媒体通信及应用环境提供灵活的算法及工具, 用于实现音视频数据的有 效编码及更为灵活的存取。它解决了多领域中多媒体应用个性化交互操作的问 题。 2) 解码器:定义了 MPEG-4 系统特殊的解码模式(SDM) ,要求特殊的缓冲 区和实时模式。 3) 音频编码:支持自然声音和合成声音,支持音频的对象特征。 4) 视频编码:支持自然和合成的视觉对象,合成的视觉对象包括 2D、3D 动画和人面部表情动画等。 5) 场景描述 BIFS(Binary Format for Scene description) :关于一组 VO 的时空结构关系的参数信息,主要描述了各 VO 在一具体背景下的相互关系与 同步等问题,以及 VO 及其背景的知识产权保护等问题。BIFS 与 VO 对象特征信 息的编码、 传输是相对独立的。 场景描述信息编码及其的独立传输是实现用户端 编辑操作的关键:在解码之后和场景合成之前,用户可以通过对 BIFS 参数的重 新设置来对 VO 进行多种编辑操作,如增减、缩放、*移,甚至一些特技效果。

2、MPEG 4 视频编码功能与特点 MPEG 4 标准的制定有两个目标:低比特率的多媒体通信和多工业的多媒体 通信的综合。即 MPEG-4 遵循灵活的编码工具框架体系,设计了一个开放的编码 系统, 对于不同的应用采用不同的编码算法, 以达到低比特率通信的目标。 MPEG-4 解码器是可编程的,相应的解码信息可与内容本身一起传输下载。与现有的 MPEG-1 和 MPEG-2 视频压缩相比,MPEG-4 视频有一些重要的改进: 1)基于内容的交互功能: MPEG-4 提供了全新的交互方式,根据制作者的具 体自由度设计,在有限的时间内可实现对多媒体 VO 的时域随机存取(从不同的 源获取内容或向不同的源发送内容) 、快速搜索、改变场景的视角、改变场景中 物体的位置、大小和形状,或对该对象进行置换甚至清除。 2)支持自然及合成信息的混合编码(NHC:Synthetic and Natural Hybrid Coding) :MPEG-4 支持合成信息的编码,可对合成的 VO 及其活动信息进行参数 化描述。对于频繁出现的视觉对象则分别定义了它们的纹理形状和动画参数。 3) 高效编码: 包括视频 VO 数据的高效编码和多个并发数据的有效同步编码。 4)基于内容的伸缩性:是指分级编码后,纹理、图像和视频基于内容的伸 缩性,视频序列中时域、空间及质量的伸缩性,表现为时域实时或非实时、数据 率大小及重建的图像质量上。 5)可变的最终输出:不同的码率意味着支持不同的功能集。功能集的底层 是 VLBV 核心(VLBV:Very Low Bit Rate Video),它为最低达 5-64kbits/s 视频 操作与应用提供算法与工具,支持较低的空间分辨率(低于 352×288 像素)和较 低的帧频(低于 15Hz)。VLBV 核心功能包括:矩形图像序列的有效编码、多媒体 数据库的搜索和随机存取。MPEG-4 的 HBV(HBV: High Bit Rate Video,范围在 64kbits/s-4Mbits/s 之间)同样支持上述功能,但它同时还支持较高的空间与时 间分辨率。其输入可以是 ITU-R 601 的标准信号,因此其典型应用为数字电视广 播与交互式检索。

MPEG-4 的设计目标还有更广的适应性和可扩展性:因特网多媒体应用、交 互式视频游戏、实时可视通信、交互式存储媒体应用、广播电视、演播室技术及 电视后期制作、多媒体内容存储和检索、采用面部动画技术的虚拟会议、多媒体 邮件、移动通信条件下的多媒体应用、可视化合作实验室场景应用、远程视频监 控、通过 ATM 网络等进行的远程数据库业务等等。 从矩形帧到 VOP,MPEG-4 顺应了现代图像压缩编码的发展潮流,即从基于 DCT 的传统编码向基于对象和内容的现代编码的转变。从这个意义上讲,MPEG-4 视频编码技术翻开了图像编码史上崭新的一页。 六、结 尾 VOP 编码方式是视频信号处理技术从数字化进入智能化得初探。 另外, VOP 已 技术为依托, 也使得模式识别技术从对符号的识别进入到对图形识别的更新的领 域。资料表明,此类研究已经更进一步的*四远允泳跣畔⒌拇矸绞健H死 永远不停的在揭示自然界无穷奥妙的同时,也更深入的探索人类自身。但是一些 学者将它引入到了现实中的一些信息系统问题的探讨中,并不是一定非常适用。 为了解决香农信息论的局限性, 一些学者对广义信息进行了研究,但是都有一定 的局限性,往往局限在某个领域,不能适用于所有的信息科学中出现的问题,也 不能很好将信息论与人工智能、 信息融合等理论结合起来。本文试图引入一种广 义的信息系统模型, 也可以称为广义通信系统模型,用于解决现实中许多的信息 问题,并且通过比较来解释香农信息论的局限性。 人类永远不停的在揭示自然界无穷奥妙的同时,也更深入的探索人类自身。

参考文献: [1]梁伟伟,李玉山,刘洋. MPEG-4 视频编解码器的 DSP 移植及优化[J]. 电视技 术,2010,67~85. [2]张小华,占妮. MPEG-4 视频编码技术的研究与发现[J]. 自动化与仪器仪 表, 2012(4): 14~24. [3]贺贵明等.基于内容的视频编码与传输控制技术[M].武汉大学出版社,2012 [4]杨文清.基于 MPEG-4 的网络教学技术研究[D].南京大学出版社,2012. [5]鲁宏伟,汪厚祥《多媒体计算机技术》电子工业出版社,2010,11. [6]葛双全,席传裕《MPEG-4 标准视频编码初论》 电脑与信息技术,2011,6.




友情链接: