基于ARM开发平台对MPEG4实时解码的算法优化及其硬件实现

发布日期：2011-07-15 浏览次数：146

核心提示：1 引言本文旨在研究基于arm微处理器的MPEG-4视频解码技术，主要应用在手持移动设备中。利用嵌入式系统实现MPEG-4视频解码，处

1 引言

本文旨在研究基于arm微处理器的MPEG-4视频解码技术，主要应用在手持移动设备中。利用嵌入式系统实现MPEG-4视频解码，处理器的选择是关键。在嵌入式系统中常用的RISC处理器是ARM核，主要是因为它具有体积小，功耗低，成本低，性价比高的特点，这对于移动应用领域非常重要。ARM7系列微处理器为低功耗的32位RISC处理器，最适合于对价位和功耗要求较高的消费类应用。本解码器定位于低分辨率和低帧率的应用场合，因此选择在 arm7TDMI核上实现解码功能。要实现更高帧率和分辨率的解码，可将软件直接应用在更高端的处理器上。

2 MPEG-4视频解码算法的优化与实现

MPEG-4标准可以划分为一套子标准，标准的每一部分都有各自最适合的应用场合。MPEG-4 SVP就是一种特殊的、简单的MPEG-4实现，SVP代表Simple Visual Profile。这部分是专门针对手持式产品中无线视频传输应用场合而制定的。由于本解码器应用在手持移动设备视频解码的场合，因此选用MPEG-4 SVP作为解码算法。
本文选用ARM7TDMI作为核心处理器进行MPEG-4视频解码器的开发。在实际开发过程中，针对arm7TDMI的结构和MPEG-4的算法特点，做了大量优化工作，保证了解码的精度，大幅度提高了解码的速度。解码器的具体功能如表1所列。

表1 基于arm7TDMI的MPEG-4视频解码器功能表

功能

系统实现

压缩标准 MPEG-4 SVP

输入图像分辨率 QCIF(176×144，如果选用更高端处理器，则可支持更高分辨率)

解码帧率 15fps(如果选用更高端处理器，则可支持更高帧率)

VOP类型 IVOP+PVOP

DC/AC逆预测支持

Inter4V模式支持

逆量化方法 H.263(MPEG可选)

逆扫描方式 Zigzag扫描+水平交替扫描+垂直交替扫描

输出图像格式 4∶2∶0 YUV

2.1 解码器算法
解码过程实际上就是从视频编码码流中恢复出VOP数据的过程。图1描述了一个视频解码过程。解码器主要包含两部分：运动解码和纹理解码。I帧中只含有纹理信息，因此只须解码纹理信息即可恢复I帧。而P帧中不仅包含纹理信息，还包含运动信息，所以须解码运动信息，获得运动矢量并进行运动补偿。另外，还须进行纹理解码获得残差值，将这两部分组合起来才能重建P帧。

解码器的实现主要是提供一个简单的接口函数，供解码时调用。该接口函数根据解码的不同需要和不同阶段提供了5个入口。5个接口函数中： 4个供初始化、预处理及后续处理时调用；剩余1个是帧解码的实现函数。图2为帧解码主程序的流程图。

解码过程的计算主要集中在如下几个模块：IDCT、运动补偿MC、逆量化、逆扫描、逆预测以及变长解码VLD。表2给出了优化前解码过程的特征信息。
从表2中可以看出，上述运算模块在解码过程中占有很大比例。对以上各模块进行优化的效果将直接反映在解码器的实时效率上。

表2 优化前解码过程的特征信息

各单元名称

各单元所占时间比例/%

IDCT

40

逆量化，逆扫描和逆预测

24

数据分析和变长解码

14

2.2 arm平台下算法的优化
    arm结构是基于RISC原理的，指令集和相关的解码机制都比CISC要简单得多。它能高效地输出指令，快速送出实时中断响应；它还进行了管道设置，处理和存储系统的所有部分可以持续地运转。在典型的情况下，当一条指令被执行时，其后续指令正在被解码；而第三条指令便从存储器中取出。arm7TDMI并不具有指令或数据的高速缓存，主要被用于控制核心，而非数据处理。但通过对其特性的灵活运用，可以使其非常容易地应用于视频解码过程。对MPEG4视频解码器的算法优化主要从以下几方面入手：
    （1）算法的优化
    这里是指高级C语言转化算法以简化计算量, 用最佳算法实现解码中的各模块。
    ① IDCT算法的选择
    IDCT运行次数多，运算量很大，其变换的快慢直接影响解码的速度。本文采用一种称为AAN的快速算法。其一维8点的DCT变换通过16点DFT来实现，而16点DFT又可通过FFT实现；二维8×8的DCT运算仅需80次乘法和464次加法操作，大大减小了这部分的运算量。用AAN算法实现IDCT运算时，实际上是用IDFT取代IDCT，所以首先要得到DFT系数。方法是逆量化后直接将DCT系数分别乘以尺度因子，也就是说将尺度变换与逆量化结合。
    ② 除法运算的消除
    一个除法操作须花费60～120个周期进行处理,而一个乘法操作最多需要4个周期。在除法可以被乘法代替而不丧失准确性的计算中,这样做是非常有好处的。在反向DC系数预测过程中,DC系数重构后,立即对其进行逆量化,从而消除除法运算。
    ③ 存储访问的减少

在任何实现中尽可能减少存储访问都是非常有价值的。由于arm7TDMI内没有缓存，每次访问都是对外部存储器进行的，所以这样做尤为重要。通过在任何可能的地方结合解码过程，访问的次数即可减少。I帧中反向DC系数预测与DC系数逆量化的结合、逆扫描与变长解码的结合，以及逆量化与IDCT的结合，P帧中变长解码、逆扫描与反量化的结合，对于每个非零系数只需一次读入和一次存储。同时，像素重建也在IDCT之后立即进行。这样对每个系数来说，又减少了一次读入和存储。

[1] [2] [3] [4]

关键词： 微处理器 arm MPEG-4 视频解码 ARM7TDMI

下一篇：国内智能手机零售渠道需长期积累
上一篇：亚马逊、索尼、苹果即将上演"三国杀"

[ 资讯搜索 ] [ ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]

• Intersil推出带有FPGA和微处理器输出跟踪及时序	• 解析面向CRM应用的封装技术
• 在汽车等领域得到广泛应用的非接触感应技术解析	• 电磁兼容设计解析
• 监狱安防领域的紧急报警系统解析	• 不间断电源UPS供电方案解析
• 嵌入式领域里应用最广泛的RISC微处理器结构解析	• 微处理器智能步进电机控制卡开发方案
• 适合于国内血糖仪的微处理器全方面解析方案	• 恩智浦半导发布LPC11U2x系列USB驱动程序的微处

功能	系统实现
压缩标准	MPEG-4 SVP
输入图像分辨率	QCIF(176×144，如果选用更高端处理器，则可支持更高分辨率)
解码帧率	15fps(如果选用更高端处理器，则可支持更高帧率)
VOP类型	IVOP+PVOP
DC/AC逆预测	支持
Inter4V模式	支持
逆量化方法	H.263(MPEG可选)
逆扫描方式	Zigzag扫描+水平交替扫描+垂直交替扫描
输出图像格式	4∶2∶0 YUV

各单元名称	各单元所占时间比例/%
IDCT	40
逆量化，逆扫描和逆预测	24
数据分析和变长解码	14

全球商人集结地 国际贸易商品城

基于ARM开发平台对MPEG4实时解码的算法优化及其硬件实现

全球商人集结地国际贸易商品城