视频编码算法研究的论文

多媒体图像压缩技术姓名:Vencent Lee摘要：多媒体数据压缩技术是现代网络发展的关键性技术之一。由于图像和声音信号中存在各种各样的冗余，为数据压缩提供了可能。数据压缩技术有无损压和有损压缩两大类，这些压缩技术又各有不同的标准。一、多媒体数据压缩技术仙农(C．E．Shannon)在创立信息论时，提出把数据看作是信息和冗余度的组合。早期的数据压缩之所以成为信息论的一部分是因为它涉及冗余度问题。而数据之所以能够被压缩是因为其中存在各种各样的冗余；其中有时间冗余性、空间冗余性、信息熵冗余、先验知识冗余、其它冗余等。时间冗余是语音和序列图像中常见的冗余，运动图像中前后两帧间就存在很强的相关性，利用帧间运动补兴就可以将图像数据的速率大大压缩。语音也是这样。尤其是浊音段，在相当长的时间内(几到几十毫秒)语音信号都表现出很强的周期性，可以利用线性预测的方法得到较高的压缩比。空间冗余是用来表示图像数据中存在的某种空间上的规则性，如大面积的均匀背景中就有很大的空间冗余性。信息熵冗余是指在信源的符号表示过程中由于未遵循信息论意义下最优编码而造成的冗余性，这种冗余性可以通过熵编码来进行压缩，经常使用的如Huff-man编码。先验知识冗余是指数据的理解与先验知识有相当大的关系，如当收信方知道一个单词的前几个字母为administrato时，立刻就可以猜到最后一个字母为r，那么在这种情况下，最后一个字母就不带任何信息量了，这就是一种先验知识冗余。其它冗余是指那些主观无法感受到的信息等带来的冗余。通常数据压缩技术可分为无损压缩(又叫冗余压缩)和有损压缩(又叫熵压缩)两大类。无损压缩就是把数据中的冗余去掉或减少，但这些冗余量是可以重新插入到数据中的，因而不会产生失真。该方法一般用于文本数据的压缩，它可以保证完全地恢复原始数据；其缺点是压缩比小(其压缩比一般为2：1至5：1)。有损压缩是对熵进行压缩，因而存在一定程度的失真；它主要用于对声音、图像、动态视频等数据进行压缩，压缩比较高(其压缩比一般高达20：1以上。最新被称为“E—igen—ID”的压缩技术可将基因数据压缩1．5亿倍)。对于多媒体图像采用的有损压缩的标准有静态图像压缩标准(JPEG标准，即‘JointPhotographicExpertGroup’标准)和动态图像压缩标准(MPEG标准，即‘MovingPictureExpertGroup’标准)。JPEG利用了人眼的心理和生理特征及其局限性来对彩色的、单色的和多灰度连续色调的、静态图像的、数字图像的压缩，因此它非常适合不太复杂的以及一般来源于真实景物的图像。它定义了两种基本的压缩算法：一种是基于有失真的压缩算法，另一种是基于空间线性预测技术(DPCM)无失真的压缩算法。为了满足各种需要，它制定了四种工作模式：无失真压缩、基于DCT的顺序工作方式、累进工作方式和分层工作方式。MPEG用于活动影像的压缩。MPEG标准具体包三部分内容：(1)MPEG视频、(2)MPEG音频、(3)MP系统(视频和音频的同步)。MPEG视频是标准的核心分，它采用了帧内和帧间相结合的压缩方法，以离散余变换(DCT)和运动补偿两项技术为基础，在图像质量基不变的情况下，MPEG可把图像压缩至1／100或更MPEG音频压缩算法则是根据人耳屏蔽滤波功能。利用音响心理学的基本原理，即“某些频率的音响在重放其频率的音频时听不到”这样一个特性，将那些人耳完全不到或基本上听到的多余音频信号压缩掉，最后使音频号的压缩比达到8：1或更高，音质逼真，与CD唱片可媲美。按照MPEG标准，MPEG数据流包含系统层和压层数据。系统层含有定时信号，图像和声音的同步、多分配等信息。压缩层包含经压缩后的实际的图像和声数据，该数据流将视频、音频信号复合及同步后，其数据输率为1．5MB／s。其中压缩图像数据传输率为1．2M压缩声音传输率为0．2MB／s。MPEG标准的发展经历了MPEG—I,MPEG一2、MPEG一4、MPEG-7、MPEG一21等不同层次。在MPEG的不同标准中，每—个标准都是建立在前面的标准之上的，并与前面的标准向后的兼容。目前在图像压缩中，应用得较多的是MPEG一4标准，MPEG-是在MPEG-2基础上作了很大的扩充，主要目标是多媒体应用。在MPEG一2标准中，我们的观念是单幅图像，而且包含了一幅图像的全部元素。在MPEG一4标准下，我们的观念变为多图像元素，其中的每—个多图像元素都是独立编码处理的。该标准包含了为接收器所用的指令，告诉接收器如何构成最终的图像。上图既表示了MPEG一4解码器的概念，又比较清楚地描绘了每个部件的用途。这里不是使用单一的视频或音频解码器，而是使用若干个解码器，其中的每一个解码器只接收某个特定的图像(或声音)元素，并完成解码操作。每个解码缓冲器只接收属于它自己的灵敏据流，并转送给解码器。复合存储器完成图像元素的存储，并将它们送到显示器的恰当位置。音频的情况也是这样，但显然不同点是要求同时提供所有的元素。数据上的时间标记保证这些元素在时间上能正确同步。MPEG一4标准对自然元素(实物图像)和合成元素进行区分和规定，计算机生成的动画是合成元素的一个例子。比如，一幅完整的图像可以包含一幅实际的背景图，并在前面有一幅动画或者有另外一幅自然图像。这样的每一幅图像都可以作最佳压缩，并互相独立地传送到接收器，接收器知道如何把这些元素组合在一起。在MPEG一2标准中，图像被看作一个整体来压缩；而在MPEG一4标准下，对图像中的每一个元素进行优化压缩。静止的背景不必压缩到以后的I帧之中去，否则会使带宽的使用变得很紧张。而如果这个背景图像静止10秒钟，就只要传送一次(假设我们不必担心有人在该时间内切人此频道)，需要不断传送的仅是前台的比较小的图像元素。对有些节目类型，这样做会节省大量的带宽。MPEG一4标准对音频的处理也是相同的。例如，有一位独唱演员，伴随有电子合成器，在MPEG一2标准下，我们必须先把独唱和合成器作混合，然后再对合成的音频信号进行压缩与传送。在MPEG一4标准下，我们可以对独唱作单独压缩，然后再传送乐器数字接口的声轨信号，就可以使接收器重建伴音。当然，接收器必须能支持MIDI放音。与传送合成的信号相比，分别传送独唱信号和MIDI数据要节省大量的带宽。其它的节目类型同样可以作类似的规定。MPEG一7标准又叫多媒体内容描述接口标准。图像可以用色彩、纹理、形状、运动等参数来描述，MPEG一7标准是依靠众多的参数对图像与声音实现分类，并对它们的数据库实现查询。二、多媒体数据压缩技术的实现方法目前多媒体压缩技术的实现方法已有近百种，其中基于信源理论编码的压缩方法、离散余弦变换(DCT)和小波分解技术压缩算法的研究更具有代表性。小波技术突破了传统压缩方法的局限性，引入了局部和全局相关去冗余的新思想，具有较大的潜力，因此近几年来吸引了众多的研究者。在小波压缩技术中，一幅图像可以被分解为若干个叫做“小片”的区域；在每个小片中，图像经滤波后被分解成若干个低频与高频分量。低频分量可以用不同的分辨率进行量化，即图像的低频部分需要许多的二进制位，以改善图像重构时的信噪比。低频元素采用精细量化，高频分量可以量化得比较粗糙，因为你不太容易看到变化区域的噪声与误差。此外，碎片技术已经作为一种压缩方法被提出，这种技术依靠实际图形的重复特性。用碎片技术压缩图像时需要占用大量的计算机资源，但可以获得很好的结果。借助于从DNA序列研究中发展出来的模式识别技术，能减少通过WAN链路的流量，最多时的压缩比率能达到90％，从而为网络传送图像和声音提供更大的压缩比，减轻风络负荷，更好地实现网络信息传播。三、压缩原理由于图像数据之间存在着一定的冗余，所以使得数据的压缩成为可能。信息论的创始人Shannon提出把数据看作是信息和冗余度（redundancy）的组合。所谓冗余度，是由于一副图像的各像素之间存在着很大的相关性，可利用一些编码的方法删去它们，从而达到减少冗余压缩数据的目的。为了去掉数据中的冗余，常常要考虑信号源的统计特性，或建立信号源的统计模型。图像的冗余包括以下几种：(1) 空间冗余：像素点之间的相关性。(2) 时间冗余：活动图像的两个连续帧之间的冗余。(3) 信息熵冗余：单位信息量大于其熵。(4) 结构冗余：图像的区域上存在非常强的纹理结构。(5) 知识冗余：有固定的结构，如人的头像。(6) 视觉冗余：某些图像的失真是人眼不易觉察的。对数字图像进行压缩通常利用两个基本原理：(1) 数字图像的相关性。在图像的同一行相邻像素之间、活动图像的相邻帧的对应像素之间往往存在很强的相关性，去除或减少这些相关性，也就去除或减少图像信息中的冗余度，即实现了对数字图像的压缩。(2) 人的视觉心理特征。人的视觉对于边缘急剧变化不敏感(视觉掩盖效应)，对颜色分辨力弱，利用这些特征可以在相应部分适当降低编码精度，而使人从视觉上并不感觉到图像质量的下降，从而达到对数字图像压缩的目的。编码压缩方法有许多种，从不同的角度出发有不同的分类方法，比如从信息论角度出发可分为两大类：(1)冗余度压缩方法，也称无损压缩，信息保持编码或熵编码。具体讲就是解码图像和压缩编码前的图像严格相同，没有失真，从数学上讲是一种可逆运算。(2)信息量压缩方法，也称有损压缩，失真度编码或熵压缩编码。也就是讲解码图像和原始图像是有差别的，允许有一定的失真。应用在多媒体中的图像压缩编码方法，从压缩编码算法原理上可以分类为：(1)无损压缩编码种类 •哈夫曼编码 •算术编码 •行程编码 •Lempel zev编码(2)有损压缩编码种类 •预测编码：DPCM，运动补偿 •频率域方法：正文变换编码(如DCT)，子带编码 •空间域方法：统计分块编码 •模型方法：分形编码，模型基编码 •基于重要性：滤波，子采样，比特分配，矢量量化(3)混合编码 •JBIG，H261，JPEG，MPEG等技术标准衡量一个压缩编码方法优劣的重要指标(1)压缩比要高，有几倍、几十倍，也有几百乃至几千倍；(2)压缩与解压缩要快，算法要简单，硬件实现容易；(3)解压缩的图像质量要好。四、JPEG图像压缩算法1．.JPEG压缩过程JPEG压缩分四个步骤实现：1.颜色模式转换及采样；变换；3.量化；4.编码。2．1．颜色模式转换及采样RGB色彩系统是我们最常用的表示颜色的方式。JPEG采用的是YCbCr色彩系统。想要用JPEG基本压缩法处理全彩色图像，得先把RGB颜色模式图像数据，转换为YCbCr颜色模式的数据。Y代表亮度，Cb和Cr则代表色度、饱和度。通过下列计算公式可完成数据转换。Y=＋128人类的眼晴对低频的数据比对高频的数据具有更高的敏感度，事实上，人类的眼睛对亮度的改变也比对色彩的改变要敏感得多，也就是说Y成份的数据是比较重要的。既然Cb成份和Cr成份的数据比较相对不重要，就可以只取部分数据来处理。以增加压缩的比例。JPEG通常有两种采样方式：YUV411和YUV422，它们所代表的意义是Y、Cb和Cr三个成份的资料取样比例。2．变换DCT变换的全称是离散余弦变换(Discrete Cosine Transform)，是指将一组光强数据转换成频率数据，以便得知强度变化的情形。若对高频的数据做些修饰，再转回原来形式的数据时，显然与原始数据有些差异，但是人类的眼睛却是不容易辨认出来。压缩时，将原始图像数据分成8*8数据单元矩阵，例如亮度值的第一个矩阵内容如下：JPEG将整个亮度矩阵与色度Cb矩阵，饱和度Cr矩阵，视为一个基本单元称作MCU。每个MCU所包含的矩阵数量不得超过10个。例如，行和列采样的比例皆为4:2:2，则每个MCU将包含四个亮度矩阵，一个色度矩阵及一个饱和度矩阵。当图像数据分成一个8*8矩阵后，还必须将每个数值减去128，然后一一代入DCT变换公式中，即可达到DCT变换的目的。图像数据值必须减去128，是因为DCT转换公式所接受的数字范围是在-128到+127之间。DCT变换公式：x,y代表图像数据矩阵内某个数值的坐标位置f(x,y)代表图像数据矩阵内的数个数值u,v代表DCT变换后矩阵内某个数值的坐标位置F(u,v)代表DCT变换后矩阵内的某个数值u=0 且 v=0 c(u)c(v)=1/>0 或 v>0 c(u)c(v)=1经过DCT变换后的矩阵数据自然数为频率系数，这些系数以F（0，0）的值最大，称为DC，其余的63个频率系数则多半是一些接近于0的正负浮点数，一概称之为AC。3．3、量化图像数据转换为频率系数后，还得接受一项量化程序，才能进入编码阶段。量化阶段需要两个8*8矩阵数据，一个是专门处理亮度的频率系数，另一个则是针对色度的频率系数，将频率系数除以量化矩阵的值，取得与商数最近的整数，即完成量化。当频率系数经过量化后，将频率系数由浮点数转变为整数，这才便于执行最后的编码。不过，经过量化阶段后，所有数据只保留整数近似值，也就再度损失了一些数据内容，JPEG提供的量化表如下：2．4、编码Huffman编码无专利权问题，成为JPEG最常用的编码方式，Huffman编码通常是以完整的MCU来进行的。编码时，每个矩阵数据的DC值与63个AC值，将分别使用不同的Huffman编码表，而亮度与色度也需要不同的Huffman编码表，所以一共需要四个编码表，才能顺利地完成JPEG编码工作。DC编码DC是彩采用差值脉冲编码调制的差值编码法，也就是在同一个图像分量中取得每个DC值与前一个DC值的差值来编码。DC采用差值脉冲编码的主要原因是由于在连续色调的图像中，其差值多半比原值小，对差值进行编码所需的位数，会比对原值进行编码所需的位数少许多。例如差值为5，它的二进制表示值为101，如果差值为-5，则先改为正整数5，再将其二进制转换成1的补码即可。所谓1的补码，就是将每个Bit若值为0，便改成1；Bit为1，则变成0。差值5应保留的位数为3，下表即列出差值所应保留的Bit数与差值内容的对照。在差值前端另外加入一些差值的霍夫曼码值，例如亮度差值为5（101）的位数为3，则霍夫曼码值应该是100，两者连接在一起即为100101。下列两份表格分别是亮度和色度DC差值的编码表。根据这两份表格内容，即可为DC差值加上霍夫曼码值，完成DC的编码工作。AC编码AC编码方式与DC略有不同，在AC编码之前，首先得将63个AC值按Zig-zag排序，即按照下图箭头所指示的顺序串联起来。63个AC值排列好的，将AC系数转换成中间符号，中间符号表示为RRRR/SSSS，RRRR是指第非零的AC之前，其值为0的AC个数，SSSS是指AC值所需的位数，AC系数的范围与SSSS的对应关系与DC差值Bits数与差值内容对照表相似。如果连续为0的AC个数大于15，则用15/0来表示连续的16个0，15/0称为ZRL（Zero Rum Length），而（0/0）称为EOB（Enel of Block）用来表示其后所剩余的AC系数皆等于0，以中间符号值作为索引值，从相应的AC编码表中找出适当的霍夫曼码值，再与AC值相连即可。例如某一组亮度的中间符为5/3，AC值为4，首先以5/3为索引值，从亮度AC的Huffman编码表中找到1111111110011110霍夫曼码值，于是加上原来100（4）即是用来取[5，4]的Huffman编码1111111110011110100，[5，4]表示AC值为4的前面有5个零。由于亮度AC，色度AC霍夫曼编码表比较长，在此省略去，有兴趣者可参阅相关书籍。实现上述四个步骤，即完成一幅图像的JPEG压缩。

毕业论文答辩决议书范文（通用10篇）

艰苦的大学生活即将结束，大学毕业前都要通过最后的毕业论文，毕业论文是一种比较正规的、比较重要的检验学生学习成果的形式，那么应当如何写毕业论文呢？下面是我帮大家整理的毕业论文答辩决议书范文，希望能够帮助到大家。

复旦大学硕士研究生XX的学位论文《XXXXX》从单核苷酸多态性（SNP）和拷贝数变异（CNV）两个不同的遗传学研究角度对中国人痛风遗传变异进行深入研究，发现了4个新的痛风易感候选基因，并分析了遗传异质性因素对于遗传因素和痛风易感性关联的影响，从尿酸排泄和炎症反应两个痛风发生的生理过程部分解释了痛风的发病机制。

当前，随着痛风/高尿酸血症研究的不断深入，遗传因素对于疾病发生中的作用越来越受到重视。本论文进一步在中国人群中探讨了遗传因素对于痛风易感性的作用，为今后的诊断和防治提供了宝贵的信息。

本论文立题有一定新意，论文工作量饱满，结构合理，逻辑结构清晰，文字表达清晰，图标清楚，达到硕士研究生学位论文要求。在论文答辩中，该生思路清晰，表达准确，较为清楚地回答了委员们提出的问题。因此，答辩委员会认为XX同学具有扎实的基础理论和系统的专业知识，具备了从事本学科的科学研究工作的能力。

经过答辩委员会讨论和无记名投票，一致通过XX同学的硕士论文答辩，建议授予XX同学硕士学位。同时答辩委员会一致认为学位论文。《XXXXX》是一篇优秀的硕士学位论文。

xxxx大学xxx学院xxx专业研究生xx所完成的题目为“”的学位论文，选题适当，具有较深的理论意义和广泛的实用价值。作者系统地归纳和综合地评述了有关文献，掌握了该领域内的研究现状和发展方向。本文作者通过大量的文献阅读和亲身的实践经验研究了一种基于xxxx的xxxxx法，完成了对xxxxxx，并设计出了xxxxxxx系统。

论文取得了下列研究成果：

1、详细介绍了基于xxxx的xxxxxxx法，并与传统的xxxxxx法进行了比较，总结出每种xxxxxxx方法的优缺点，指出采用xxxxxxxx法的优势。

2、研究并设计了基于法的xxxxxxx电路。由于采用该种方法不需要xxxxxxxx电路，因此，解决了传统的xxxxxxx等问题。

3、研究并设计了基于的xxxxxx硬件电路。其中，包括对控制电源、单片机外围电路、驱动电路、逆变电路以及保护电路的设计等，并在硬件电路设计中考虑了软硬件抗干扰措施。

4、介绍了在xxxxxxxx模式下的常用的xxxxxxx方法，详细分析了xxxxxxxx控制中最常用的xxxxx技术，并编写出了程序，使xxxx能够顺利xxxxxxxx。

5、完成了控制系统的调试工作，其中包括硬件电路的调试和整个系统的软硬件联调，最后给出了系统调试结果。

论文工作表明作者已经掌握本学科扎实的理论基础和深入系统的专业知识，独立从事科研工作能力强。论文结构合理，论述清楚，逻辑性强，已达到学术硕士学位论文的要求。

答辩过程中表达清楚，回答问题正确。答辩委员会一致同意通过答辩，并建议授予其学术硕士学位。

系统性红斑狼疮和类风湿性关节炎都是由基因和环境因素相互作用的、临床表现复杂的自身免疫性疾病。被用于研究PTPN22基因多态性与云南汉族系统性红斑狼疮和类风湿性关节炎的相关性。

论文采用2个群体（SLE，RA），应用PCR—RFLP和直接测序的方法，对PTPN22基因7个SNPs（rs1217414，rs1217418，rs3765598，rs1746853，rs2470601，rs1970559，rs3811021）多态进行检测，并对检测结果采用、、HaploView软件进行数据统计分析。并对各个位点的多态与系统性红斑狼疮和类风湿性关节炎相关性进行讨论。得到如下结果：

1、PTPN22基因C1858T位点在云南汉族人群中无多态性。内含子rs1217414，rs1217418，rs1746853多态性可能与云南汉族SLE，RA相关。内含子rs1970559与云南汉族SLE，RA无关。rs3765598和rs3811021位点突变可能与云南汉族系统性红斑狼疮相关，rs3811021位点突变可能与云南汉族类风湿性关节炎相关。

2、rs1217414，rs1746853，rs3811021位点突变与系统性红斑狼疮各临床指标无关。rs1217418突变可能与WBC有关，rs1970559可能与BUT，WBC有关，rs3765598可能与抗ANA1和抗ANA2抗体有关。

3、单倍型（CATTCT）为主要单倍型。单倍型（CAGTCC），单倍型（CATTCC）和单倍型（TATTCT）显著降低系统性红斑狼疮风险性（PPAGTTC）

论文选题新颖，有一定创新性，实验设计和实验结果科学。论文内容丰富，写作规范，逻辑清晰，结构合理。答辩回答问题正确，思路清晰，已达到硕士研究生水平，一致通过答辩，建议授予理学硕士学位。

xxx同学采用实验研究法，通过干预社区脑卒中患者的功能锻炼，探讨以保证脑卒中患者肢体功能得到更大程度的恢复，身体状况得到更大的改善为最终目标，寻找一种高效的功能锻炼指导模式，确保社区居家脑卒中患者能够获得系统、规范、连续的功能锻炼指导，为其进一步康复提供保证。使出院脑卒中患者能在住院治疗后的恢复期中得到持续的卫生保健服务，最大程度的重建患者肢体功能，预防再复发。同时，该探究将有利于节约社区卫生服务成本，提高社区医护人员对于脑卒中管理的效率及效果，最终产生良好的经济社会效益。该论文选题鲜明，具有实用性，研究设计较合理，所得数据真实可信，统计方法使用得当，结果分析较深入，论文撰写格式符合要求，该论文已达到硕士学位论文的要求。该生在论文答辩中回答问题实事求是，思路清晰。经答辩委员会无记名投票，一致通过论文答辩，并建议授予医学硕士学位。

答辩委员会主席：

xxxx年xx月xx日

XX 同学的硕士学位论文《XXXXXXXXX》，选题紧跟我国禁烟控烟的热点话题，科研设计简单合理，具有一定的理论价值和现实意义。依据世界卫生组织发布的《烟草控制框架公约》和近 5 年来发布的《中国控制吸烟报告》，确定预防的重点对象是年轻的大学生群体，在文献研究和时事动态分析的基础上，对高校大学生吸烟与被动吸烟现况进行了横断面调查研究，以及详细分析了其各自的影响因素。论文内容真实，层次分明，逻辑性强，图表清晰度有待加强，论据比较充分，数据准确，资料详实，统计学处理正确，结论可靠。答辩时的论述符合一般逻辑，能够正确回答问题，论文表明作者掌握了社会医学与卫生事业管理专业的基本理论和医学社会科学研究方法，知识面比较宽广，拥有较强的独立科研能力。答辩委员会认为本篇论文达到了硕士学位研究生论文水平，答辩委员会委员全体无记名投票通过论文答辩，建议授予医学硕士学位。

本论文主要研究裂褶菌F17锰过氧化物酶的酶学性质，并在单因子分析法的基础上，通过响应面法优化了影响该酶活力的各个因素。同时将研究的结果应用于染料脱色中，发挥其在环境保护中的作用。作者还初步进行了基因克隆实验，并且优化了反应体系，获得了一些序列。这些研究结果对于进一步研究、开发应用锰过氧化物酶具有一定的参考意义。论文立项具有一定的理论意义和实际应用价值。

该论文目标明确，研究路线合理，实验数据翔实，实验结果可信，观点正确。论文书写规范，层次清晰，图表规范。作者答辩表达清楚，回答问题思路清晰，论文已达硕士论文的学术水平。

经答辩委员会讨论评议和无记名方式投票表决，一致通过其毕业论文答辩，建议授予理学硕士学位。

本论文主要探讨了产广谱乳酸菌素菌株的.筛选、鉴定、发酵的全过程。筛选到了一株既可抑制革兰氏阳性菌又可抑制革兰氏阴性菌的乳酸菌，经鉴定是一株植物乳杆菌;又通过摇瓶发酵数据优化了菌株发酵条件;并初步探索了菌株固定化的条件。该论文立意新颖，研究目标明确，数据方案设计较合理，方法可靠。论文研究为进一步探索乳酸菌素的生产条件提供了依据与实验研究基础，具有一定的应用价值。

该论文书写规范，逻辑性强。答辩表达清楚，回答问题思路清晰，论文已达硕士论文的学术水平。

硕士学位论文答辩委员会决议：分布式视频编码是一种新兴的编码框架，它可以将计算复杂度从编码端转移到解码端，同时具有较好的压缩效率和抗误码能力，非常适合于一些新兴的应用场合。论文对分布式视频编码中的 WZ 帧编码技术进行了研究，选题科学，具有较高的理论研究意义和实际应用价值。论文首先利用统计学的原理分析证明边信息与待解码 WZ 帧之间的较强相似性，提出以边信息来填充 WZ 帧高频子块的思路，并将其运用到嵌入式分级编码中，构造出改进的基于 DCT 和小波变换的 WZ 帧编码架构。实验表明，改进方法与 (帧内编码)、(帧内编码)的性能相当。论文概念清楚，分析严谨，理论推导正确，做了较多的仿真实验，并对实验结论作了理论上的阐述和讨论。论文有创新，表明作者在本专业具有扎实的理论基础和系统的专门知识，有较强的独立从事科研的能力。答辩时，条理清楚，回答问题正确。经答辩委员会讨论，一致同意通过硕士论文答辩，建议授予工学硕士学位。

本文对分级进风燃烧室内的高温气固两相流动与燃烧过程进行了实验研究，对于了解分级燃烧过程的两相流动、燃烧与污染物生成机理，发展分级燃烧技术，具有重要的学术意义和实用价值。

本文取得了以下主要成果：

1）建立了分级进风燃烧室高温气固两相流动热态实验装置系统。

2）应用三维激光粒子动态分析仪对分级进风燃烧室内有气相燃烧的高温气固流动进行了测量，得到了气固两相平均轴向与切向速度和湍流脉动特性以及两相轴向与切向速度的概率密度函数，揭示了燃烧室内高温气固两相流动的特点。

3）对分级进风燃烧室内湍流燃烧的温度场和组分浓度场进行了测量，阐明了二次风率对气体温度场、组分浓度场和NO浓度场的影响规律。

论文表明作者掌握了本学科坚实的基础理论和系统的专门知识，具有独立从事科学研究工作的能力。论文写作规范，图表完备。答辩中叙述清晰，回答问题正确。答辩委员会经表决，5票一致同意通过论文答辩，并建议授予郑晓川工学硕士学位。

速生材改性研究是木材科学与应用研究领域十分重要的课题。论文选题紧密结合学科发展和实际应用需要，具有较强的理论意义和较好的应用背景。立题正确。

作者对国内外在木材改性领域的研究情况和发展趋势做了较充分的调研和分析，在此基础上，有针对性地开展了三倍体毛白杨木材化学改性研究。论文采用4种不同的方法对木材进行化学改性处理，通过尺寸稳定性、阻燃性、抗吸水性、硬度等的检测，考察了各种改性木材的物理力学性能，得出以下主要研究结论：

1）用含有纳米SiO2的UF、PF树脂复合处理剂处理木材时，二氧化硅对提高木

材的尺寸稳定性和硬度具有明显的作用，且纳米二氧化硅能够降低处理材的游离甲醛释放量；2）马来酸酐/苯乙烯和马来酸酐/环氧氯丙烷复合处理液均能够在一定程度上提高木材的尺寸稳定性、抗吸水性、抗吸湿性和硬度。研究成果具有一定的理论意义和实际应用价值。

论文实验设计合理，数据完整，撰写认真，文字流畅，图表清晰，工作量饱满。论文答辩中，讲解重点突出，回答问题基本正确，表明该同学具有较好的本学科理论基础及相关的专业知识，具备了较好的综合分析能力和从事科研工作的能力，论文达到了硕士学位水平要求。

全体答辩评委一致同意通过论文答辩，建议授予工学硕士学位。

随着计算机主频、内存的快速发展，显示清晰度和显示尺寸的限制已经成为计算机系统的瓶颈。如何利用高性能价格比的机群实现超高分辨率的高清晰度大尺寸显示正在成为并行可视化方向一个重要的研究课题。李颖敏同学的硕士论文以设计基于机群的拼贴显示系统提供方便的编程接口和编程环境为目的，其选题具有前瞻性，论文的工作有很好的应用前景。（第一段：选题的意义）

论文在分析调研国际目前研究动态的基础上应用“分布式共享显示内存”的新概念提出了一种并行程序环境下的拼贴显示接口，并以两种形式实现了该接口，简化了系统应用的编程实现。提供了一些测试用的应用程序，为今后的研究工作提供了有参考价值的研究平台。展示了基于机群作分布式显示的良好前景。同时作者还利用该拼贴显示接口为一个地理图像信息系统实现了多屏显示应用，满足了该应用对高分辨率显示的需求。（第二段：论文工作取得的成果或新见解）论文工作表明作者基础理论和专业知识都比较好，掌握了计算机系统结构领域分析问题、解决问题的基本方法和技能。对拼贴显示领域有较深的了解，对机群系统，尤其是有较好的基础知识和技术，具备了一定的独立工作能力和实际动手能力（第三段：对科研能力及对论文的评价）

论文组织合理，叙述清晰，文字简洁流畅，理论与实践结合得较好。答辩中表达清楚，思维敏捷，能够正确回答问题。经答辩委员会无记名投票，一致通过该同学的硕士论文答辩，并一致建议授予李颖敏同学工学硕士学位。（第四段：答辩中的表现及结论性意见）

多媒体的应用很广泛，请链接

短视频算法研究现状论文

抖音短视频国外研究现状抖音自从在国内发展稳健后，便将主要精力集中在东南亚地区市场，起初之时，发展并不顺利，源于用户接受度不高，且有相似品牌在其中。但随着抖音APP的不断改进和功能完善，用户逐渐尝试接受新鲜血液的出现，每一年抖音的用户数据都在极速攀升，达到数亿用户的它立马占据海外市场。无论抖音怎么改变，也无法磨灭它在悄然无息中也改变我们原有的生活轨道。

目前大多数以影视剧为素材的切条搬运类“二创”短视频，其创作、传播行为若不能被认定为合理使用，则面临侵权风险《云南虫谷》创纪录的3200余万元侵权赔偿金额，被认为贯彻了司法定价围绕市场定价的总体思路，以及数额裁量不离价值基准的根本遵循作为众多利益参与方中最重要的两端，维护内容创作空间的清朗，依赖版权方和平台方同向而行文 |《瞭望》新闻周刊记者于雪贾雯静我国影视剧版权侵权司法判赔金额创下新高——近日，陕西省西安市中级人民法院对电视剧《云南虫谷》被侵权案作出一审判决，法院认定某短视频平台构成帮助侵权行为，判决赔偿3200万元，其中涉嫌被侵权的16集内容平均每集获得赔偿200万元，并向版权方支付42万元合理维权费用。这一赔偿金额及标准一度冲上热搜，引起社会热议。一段时间以来，伴随短视频平台的兴起和移动互联网的发展，对优质视频内容进行剪辑、切条、解说、搬运、速看等“二创”短视频内容充斥网络空间，“二创”短视频侵权案件时有发生。《琅琊榜》《延禧攻略》《春风十里不如你》等热门作品的版权方，都曾与短视频平台对簿公堂。相关判决对短视频播出平台“帮助侵权”的认定，及其可能带来的示范效用同样引人关注。人们想要知道：以原创作品为素材的“二创”短视频是否构成侵权？合理使用原创作品进行二次创作的边界在哪？是否还有创作空间可为？如何通过构建现代知识产权保护体系，助推内容创作理性繁荣？重点打击王鹏图/本刊合规“二创”的边界在哪里此次判决的高额侵权赔偿，引起社会对二次加工、创作视频边界的讨论。北京市京都律师事务所合伙人常莎认为，按照著作权法，影视剧等视听作品的版权在无特别约定的情况下由制片方享有，二次加工、创作一般需征得版权方同意。专家提醒，如果制片方将版权转让给某网络视频播放平台，那么使用原创视频应取得这一网络视频播放平台同意。若未经过版权方许可，合规二创则需满足合理使用原则。据了解，界定是否合理使用，一看使用性质。若使用者为个人学习、研究或欣赏，使用他人已经发表的作品；为介绍、评论某一作品或说明某一问题，在作品中适当引用他人已经发表的作品；为报道新闻，在报纸、期刊、广播电台、电视台等媒体不可避免地再现或引用已经发表的作品等情况时，属合理使用，无需征得版权方同意。二看使用比例。目前法律没有明确规定合理使用的具体比例，但“二创”短视频中引用部分占原作品比例越大，越难以构成合理使用。三看使用内容。常莎解释说，如果引用内容属于他人作品的核心部分，能够反映原作者的独创性思想，并能对影视剧的市场价值造成影响，即使只占他人作品的小部分，仍可能违反合理使用原则。也就是说，合理使用既要注意引用他人作品的“量”，也要注意引用他人作品的“质”。专家表示，目前在未获得版权方许可的前提下，合理使用原则之外的抄、拆、剪、编、搬、配等形式，都可能被认定为侵权。这也意味着，目前大多数以影视剧为素材的切条搬运类“二创”短视频，其创作、传播行为若不能被认定为合理使用，则面临侵权风险。目前的难点在于法律条文对“合理使用”的认定存在一定模糊空间。受访专家表示，比如规定中“适当”引用的尺度划在哪里合适，以及如何认定所引用部分是否为他人独创思想等缺乏明晰界定，使得“二创”短视频侵权认定存在争议。知识产权如何合理定价《云南虫谷》被侵权案中的赔偿金额及标准是如何确定的？通常而言，法院对损害赔偿数额的合理认定也被称为司法定价。对著作权进行司法定价，既是客体市场价值的最终体现，也反映出对知识产权的保护程度。受访专家表示，此次判决结果贯彻了司法定价围绕市场定价的总体思路，以及数额裁量不离价值基准的根本遵循。据了解，知识产权侵权损害赔偿的计算方式大体有三种。一是按实际损失确定赔偿。这在法律上称为“填平原则”，即将影视剧版权方的损失全面填补，版权方损失多少，侵权人就赔偿多少。但如何准确核定实际损失、由谁举证等，容易在实践中引发争议。二是按侵权获利确定赔偿。在短视频侵权案中，由于侵权获利与视频质量、视频播放量和视频互动量都有关，想精确计算侵权获利往往并不容易。三是按合理使用许可费赔偿。当实际损失与侵权获利均难以判断时，可由法院根据案件具体情况，参照商业合理许可使用费确定赔偿数额。此时需要参考的因素包括：涉案视频的使用传播情况、影视剧版权方获得授权的具体范围及类型、涉案视频的商业模式、收费标准等。北京市中同律师事务所律师、海润影视法律顾问王文彬介绍，根据著作权法、民法典等法律，当存在故意侵犯著作权或情节较为严重时，还可以在上述认定方法的基础上，增加一倍以上五倍以下的惩罚性赔偿。在《云南虫谷》被侵权案中，法院综合考量涉案作品类型、知名程度、可能承受损失、预期收益，被告侵权行为实施规模、持续时间、主观恶意、可能获益等因素，在判决书中对各种参酌因素条分缕析，进行阐述和逻辑验证。受访专家表示，相较于以往同类裁判范例中笼而统之的抽象化、模块化、定式化表述，这一判决更加清晰地界定了司法定价在数额确定上的运用策略和实施路线，对加强原创作品合法权益的保护、推动平台经济规范健康发展提供了实例化、可视化的样本。专家同时表示，知识产权司法保护的总体趋势是加大保护力度、提高判赔金额、增加违法成本。“如此，能产生震慑侵权行为的寒蝉效应，体现国家对知识产权保护的重视。”王文彬说。倒逼短视频平台主动合规专家认为，《云南虫谷》被侵权案的又一瞩目之处，在于对短视频播出平台“帮助侵权”的认定。“该判例很可能在一定程度上倒逼平台主动合规，尝试探索法律框架范围内的版权保护模式。”据了解，与以往版权方维权对象为侵权人不同，《云南虫谷》版权方的维权对象是播放侵权短视频的平台。法院审理认定，平台构成帮助侵权，应立即采取有效措施删除、过滤、拦截相关视频，并赔偿相应经济损失及合理费用。专家表示，作为侵权行为的实施主体，“二创”短视频创作者需承担主要责任，但短视频平台的主体责任也不容推卸。特别是一些短视频平台信奉“流量是第一生产力”，在“发生侵权时，网络服务提供商在被告知侵权后，若及时删除，就不视为侵权”这一“避风港原则”的庇护下，为追逐利益默许甚至纵容侵权行为，甚至滥用算法推荐技术，助推、诱导违规视频大肆传播。短视频平台的困难在于，由于短视频数量大、传播快等因素，平台较难在第一时间清楚判断其是否构成侵权。在常莎看来，实践中，这增加了平台的过滤审查成本，平台履责积极性不高。“当前，关于短视频侵权的法律体系还存在空白点，通过一批知识产权侵权损害赔偿救济的典型案例，能够倒逼创作者和平台主体提高法律意识、社会责任意识和媒介素养。”王文彬说。专家认为，版权方在确保权益不受侵犯的同时应看到，以原创作品为基础，百花齐放的“二创”短视频有助于引爆网络舆论热潮，进而形成全方位、立体式的宣传矩阵。平台方也应看到，通过与“二创”短视频作者的利益分成，平台能从流量中获得收益，确保创作合规是平台规避法律风险，获取最大收益的前提。因此，同济大学上海国际知识产权学院教授许春明建议，由短视频平台牵头，与影视剧版权方合作探索借助正版作品数据库，在保护版权与鼓励创新之间寻求平衡、谋求共赢。“与其将合规成本转嫁给单个创作者而平台承担高昂的审查成本，不如平台主动与版权方达成某种合作，既能降低法律风险，又能吸引更多短视频博主，带来新的创作繁荣。”许春明表示，社会上一直呼吁建立正版作品数据库，但因版权方和短视频平台之间的利益难以平衡，迟迟难以推进。“影视剧版权方和短视频平台若能从利益平衡和产业发展的角度寻求合作，不仅能有效遏制侵权行为，还有助于厚植创新土壤，培育产业繁荣沃土。”在许春明看来，未来可探索集体管理模式、开放许可模式、平台一揽子许可模式等，为“二创”短视频涉嫌侵权问题提供解决方案，形成合作共治的良好生态。专项行动程硕图/本刊避免“原创危机”引导“二创”短视频创作走向合规，加快短视频市场信用体系建设是又一关键。“二创”短视频的创作方既可能是侵权方，也可能是侵权行为的受害者。比如大量“二创”短视频在涉嫌侵权的同时，也面临被洗稿的风险。业内人士认为，当前以短视频为代表的互联网内容创作领域出现的诸多乱象，与市场主体缺乏知识产权意识有关，侵权短视频野蛮成长在带来“原创危机”的同时，也阻碍了短视频平台自身的高质量发展。长久来看，为避免网络世界的内容创作陷入“互害”模式，需积极探索建立短视频市场信用体系。许春明解释说，短视频市场信用体系是知识产权保护的制度基础，类似于个人征信系统，它会记录短视频领域每一个市场主体的失信、违法等行为，并规定相应惩戒机制，规范市场主体行为。常莎建议，短视频市场信用体系可以法律法规、标准规范、平台规范和行业自律为基础，以信用大数据、信用指标体系、评价模型和信用监管为核心，由信用服务平台、运营平台与政府监管部门等主体合力打造。许春明表示，二次创作是短视频创作的主要方式之一，在某种程度上，可以说任何创作都站在前人作品的基础之上。信用体系的建立有助于引导二次创作走向规范，推动形成支持内容创新的、可供实践的重要制度。必须注意到，互联网空间中的版权治理并非零和博弈，如何最大化各方的价值，创造共治共享的创作生态是各方的共同目标。原创作品与“二创”作品不仅是竞争关系，还有互补关系，需要兼顾各方利益，既要促进视频产业生态健康发展，也要帮助公众获取自身所希望的信息、资源。而作为众多利益参与方中最重要的两端，维护内容创作空间的清朗，依赖版权方和平台方的同向而行。■

传播学抖音短视频成功原因与问题探析论文

在日常学习和工作中，大家都接触过论文吧，论文一般由题名、作者、摘要、关键词、正文、参考文献和附录等部分组成。一篇什么样的论文才能称为优秀论文呢？下面是我收集整理的传播学抖音短视频成功原因与问题探析论文，仅供参考，大家一起来看看吧。

摘要：作为短视频界的一匹“黑马”，抖音app在2018年风靡全国，成为一款现象级产品，在获得成功的同时，抖音也存在诸多问题。本文将借助拉斯韦尔的“五W模式”，从用户定位、传播内容、传播渠道、传播效果方面分析抖音app的成功原因，反思其所产生的社会效应。

关键词：抖音app；成功原因；社会效应

抖音是今日头条旗下的一款音乐创意短视频app，于2016年9月上线，用户可以在抖音随机选择一首背景音乐进行自我展示，经过后期剪辑，创作出一条短视频并发布，短视频的时长限制是15秒。2018年一季度，抖音下载量达4580万次，成为苹果应用商店全球下载量最高的iPhone应用。[1]截止2018年7月12日，笔者在iphone的“摄影与录像类”免费app排行榜中看到，抖音排名第一位。在获得成功的同时抖音也存在诸多问题，其内部整改的步履始终未停。2018年3月1日至3月31日期间，抖音清理了27231条短视频，永久封禁15234个账号；2018年4月10日，抖音上线反沉迷系统；4月11日，抖音进行了全面升级，升级期间，关闭了直播和评论功能。五W模式是美国学者拉斯韦尔提出的传播模式，其中指出了传播过程中的五种基本要素：谁-说了什么-通过什么渠道-向谁说-有什么效果。本文将借助拉斯韦尔的五W模式，从传播渠道、传播内容、用户和传播效果方面分析抖音app风靡的原因及存在的问题。

一、抖音app成功原因探析

(一)定位年轻用户，算法分发利好草根。抖音的用户定位是20-29岁之间的年轻时尚群体，这一群体本身有着较高的网络活跃度，在社交需求上表现出较强的`媒介依赖心理和行为，如在现实中交流较少，更倾向于虚拟空间中的交流，且更易受到虚拟环境的影响。面对这类“手机症候群”，抖音首先满足了用户的社交需求。抖音在内容分发方面采用算法分发＋人工精选的推荐机制，即根据用户的观看喜好为用户推荐相关内容，同时将人工精选出来的优质内容推送给用户。这种内容分发机制使用户接收的内容更为多元化、个性化，同时更看重内容的优质性和吸引力，为内容生产的一方提供了更多“被看”的机会。

(二)多元内容满足用户使用需求。抖音在内容生产方面采用了PUGC的模式，即以UGC的形式，生产出相对专业的内容。在内容生产上，抖音具有以下特点：

1.内容海量多元，娱乐性强，尤其是以个人才艺、技能为主的内容易受追捧。

2.内容的碎片化。新媒体环境培养了公众的碎片化阅读习惯和短时注意力特征，抖音的视频长度限定为15秒，迎合了用户的心理需求。

3.个性化和虚拟化。抖音以“我”为中心，为用户提供了个性化的服务。如拍摄中可以调节视频的快慢，拍摄后可以进行创意混剪，让用户充分发挥自己的创造性。同时，各种滤镜、特效工具满足了用户的自我心理期待。

4.发起话题挑战，增强用户黏性。话题挑战是指以某个话题或某首背景音乐作为主题，让用户按照规则录制内容进行挑战，从而引导用户发布视频，进一步增强用户黏性。

(三)多渠道传播模式。今日头条通过多种渠道对抖音进行推广：

1.借助电视综艺节目进行广告营销。如抖音先后在《快乐大本营》、《天天向上》、《中国有嘻哈》等电视综艺节目投放广告。

2.邀请明星入驻，利用名人效应。目前已经入住抖音的明星有岳云鹏、鹿晗、关晓彤、何炅等。明星入驻引发名人效应，进而带动了粉丝入驻。

3.利用外链分享，拓展传播渠道。抖音在发展初期，利用微博、微信的社交分享功能，从这两个平台获得流量。随后，抖音又与淘宝进行合作，进一步聚拢了电商入驻抖音。

二、存在的问题

(一)过度娱乐化导致人的迷失。抖音的内容具有很强的娱乐性，且是一种低门槛的娱乐。娱乐是媒介的功能之一，可以为人们带来精神上的愉悦和放松，但是过度娱乐化将会导致人精神上的空虚和迷失，正如尼尔波兹曼在《娱乐至死》中所说，“人们会因为享乐而失去自由，我们将毁于我们所热爱的东西”。抖音的娱乐性还体现在形式上。以视频形式播出的内容更具有感官刺激性，而缺少逻辑理性，用户在观看视频的时候，只需要沉浸在背景音乐和画面的感官刺激中，无需过多理性的思考。长此以往，用户越来越注重感官刺激，逻辑思考能力却越来越低。同时，抖音的碎片化特征在迎合用户思维习惯的同时，也进一步培养了用户的碎片化思维。

(二)媒介对人的控制：谁是谁的奴隶。麦克卢汉曾说，媒介是人的延伸。在麦克卢汉看来，媒介是工具，延伸了人的知觉能力，然而当下的“拇指族”在利用工具的同时，也产生了对工具的依赖和沉迷。对这类社交媒体的依赖和娱乐性内容的沉迷，不仅消耗了大量的时间，长此以往用户日渐进化为“容器人”，反而导致了社交障碍以及人的空虚和焦虑。

(三)抖音里的虚假、低俗内容。由于审核机制的缺乏，抖音上不乏虚假、低俗的信息。抖音通过外链分享和淘宝合作，吸引淘宝商家入驻。在拓展盈利模式的同时，假货也开始在抖音上横行，有制假售假者在抖音平台上公然兜售假冒伪劣商品。此外，在抖音上出现了许多低俗乃至价值观扭曲的内容，向其他用户传递着错误的价值观念，造成恶劣影响。

三、参考文献：

[1]抖音下载量全球第一科达股份为其TOP营销伙伴[DB/OL].

[2]刘夏，李小晔.抖音短视频的营销推广策略研究[J].新闻研究导刊，2018年3月.

抖音App是一款社交类的软件，通过抖音短视频App你可以分享你的生活，同时也可以在这里认识到更多朋友，了解各种奇闻趣事。[22]

四、拓展资料：抖音短视频主要功能

抖音实质上是一个专注年轻人的音乐短视频社区，用户可以选择歌曲，配以短视频，形成自己的作品。它与小咖秀类似，但不同的是，抖音用户可以通过视频拍摄快慢、视频编辑、特效（反复、闪一下、慢镜头）等技术让视频更具创造性，而不是简单的对嘴型。

抖音平台一般都是年轻用户，配乐以电音、舞曲为主，视频分为两派：舞蹈派、创意派，共同的特点是都很有节奏感。也有少数放着抒情音乐展示咖啡拉花技巧的用户，成了抖音圈的一股清流。

抖音最新的内测版中加入了一个新的社交功能 ——“朋友聊天室”，支持抖音强大的滤镜美颜和道具功能。

2021年3月24日，抖音推出了“老友计划”，该计划致力于提升老年用户使用体验，丰富老年用户生活，还在产品和运营活动上推出以下举措。

2021年6月28日，IT之家消息，抖音 App 再次更新，本次内测了一些新功能，同时抖音音乐正式上线，大大提高了用户之间的互动性，向社交领域再次迈出一大步。

2022年2月25日，抖音官方本周发布公告宣布多举措预防网暴，首家上线“评论发文警示”等功能。

日前，新媒体用户不断扩大以及短视频形式在日常得到不断的应用，短视频内容的不断多元化，形成了巨大的商业价值和文化传播价值。短视频形式与各种媒介互相渗透，彼此融合，传播形势不断走向全面化，也正因为如此，短视频这种新兴的传播形式不断受到重视，发展日益扩大。短视频做为一种依托社交与文化传播平台传播，移动端传播，以其相较于其他媒介传播形式所不具备的内容丰富价值，艺术价值，文化传播价值。中国互联网信息中心数据显示，截至2018年2月，中国网络视频用户规模达亿，网络视频用户使用率为，其中手机视频用户规模亿，手机网络视频的使用率为。带有短、平、快特性的短视频形式正随着媒介技术的发展成为传播行业的风口浪尖，丰富了用户的碎片化时间。短视频已经从无到有不断的发展开来，截至目前，短视频已经成为了一项重要的传播媒介。（一）短视频发展现状（一）短视频的特性短视频的属性之一是短视频的时长。随着技术门槛的降低和受众对于短视频这种视频形式接受度的提高，短视频长度也逐渐从最开始的数十秒扩展到数分钟乃至十几分钟。其中以3分钟之内内容为主要时常分布。可以发现网络上存在大量的以3分钟为计时单位的短视频。创作者可利用3分钟时间，为用户解释清楚一个简单的概念或专有名词，使用

视频压缩算法研究现状论文范文

论文题目是：数字电视接收机的视频压缩技术帮写内容：（1）选题依据及研究意义；（2）选题研究现状；（3）研究内容（包括基本思路、框架、主要研究方式、方法等）一共是三点，请大家教一下我这三点该怎么写？！注明：论文我已经写好了：下面是论文提纲(含论文选题、论文主体框架) 论文选题：数字电视接收机的视频压缩技术第一章：绪论一、数字电视的发展及视频压缩的必要性；二、视频图象数字压缩的客观依据；三、数字电视与接收机（机顶盒）；四、电视信号模数转换标准；第二章:数字电视机顶盒技术一、什么是数字电视机顶盒；二、数字电视机顶盒的基本原理；三、数字电视机顶盒的结构；四、数字电视机顶盒的主要技术；第三章：视频压缩编码技术一空间或时间性编码；二. 加权；三. 遍历(Scannng)；四. 熵编码；五. 空间性编码器；六. 时间性编码；七. 运动补偿；八. 双向编码；九. I、P 和B 画面；十. MPEG 压缩器；十一. 预处理；十二. 类和级；十三. 小波；第四章：视频图象压缩标准一、H．261标准；二、JPEG标准；三、MPEG-1压缩编码标准；四、MPEG-2压缩编码标准；五、MPEG-4压缩编码标准；结束语；参考文献；问题补充：题目是学校帮我选择的！大家可以帮忙把这三点写一下吗？我真不知道该怎么写！或者大家帮我写前两点也好了~ 谢谢帮我忙的所有朋友！拜托各位了！我开题16号就要交了看看这个能不能帮您！一、如何选择问题我一起萦绕于怀的，是在写博士论文开题报告的一年多时间里，导师薛澜教授反复追问的一个问题：“你的 puzzle 是什么？”多少次我不假思索地回答“我的问题就是，中国的半导体产业为什么发展不起来。”薛老师问题以其特有的储蓄，笑而不答。我在心中既恼火又懊丧：这么简单的道理，这么明显的答案，到底哪儿不对了？！奥妙就在于提出问题的“层次”。不同于政策研究报告，学术文章聚集理论层面、解决理论问题。理论是由一系列前设和术语构造的逻辑体系。特定领域的理论有其特定的概念、范畴和研究范式。只有在相同的概念、视角和范式下，理论才能够对话；只有通过对话，理论才能够发展。极少有硕博论文是创造新理论的，能这样当然最好，但难度很大。我们多数是在既有理论的基础上加以发展，因此，在提出问题时，要以“内行”看得懂的术语和明确的逻辑来表述。审视我最初提出的问题“中国半导体产业为什么发展不起来”，这仅仅是对现象的探询，而非有待求证的理论命题。我的理论命题是：“中国产业政策过程是精英主导的共识过程吗？”在这个命题中，“政策过程”、“精英政治”、“共识诉求”三个术语勾勒出研究的理论大体范围和视角。其次，选择问题是一个“剥笋”的过程。理论问题总是深深地隐藏在纷繁复杂的现实背后，而发现理论问题，则需要运用理论思维的能力。理论思维的训练是一个长期积累的过程。不过初学者也不必望而却步，大体上可以分“三步走”：第一步，先划定一个“兴趣范围”，如半导体产业、信息产业、农村医疗、高等教育体制等，广泛浏览相关的媒体报道、政府文献和学术文章，找到其中的“症结”或“热点”。第二步，总结以往的研究者大体从哪些理论视角来分析“症结”或“热点”、运用了哪些理论工具，如公共财政的视角、社会冲突范式等。第三步，考察问题的可研究性，也就是我们自己的研究空间和研究的可行性。例如，西方的理论是否无法解释中国的问题？或者同一个问题能否用不同的理论来解释？或者理论本身的前提假设、逻辑推演是否存在缺陷？通过回答这些问题，我们找到自己研究的立足点。不过还要注意我们研究在规定的一到两年时间内，是否可能完成？资料获取是否可行？等等。最后，如何陈述问题？陈述问题实质上就是凝练核心观点的过程。观点应当来自对现实问题的思考和总结，而不是为了套理论而“削足适履”。中国的政治、经济和社会发展充满动态的、丰富的景象，如何才能用恰当的术语、准确的逻辑表述出来呢？雄心勃勃的初学者往往提出宏伟的概念或框架，但我的建议是尽可能缩小研究范围、明确研究对象，从而理清对象的内存逻辑，保证能在有限的时间内完成规范的学术论文。如“中国半导体产业政策研究”就是一个非常含糊的陈述，我们可以从几个方面来收缩话题：（ 1 ）时间：从 1980 年到 2000 年；（ 2 ）对象：政府的叛乱者和决策行为，而不是市场、企业、治理结构等；（ 3 ）视角：政治和政府理论中的精英研究；（ 4 ）案例： 908 工程、 909 工程、 13 号文件和《电子振兴》，这是发生在 1980 － 2000 年间半导体政策领域的两个重大工程和两个重要文件。通过这样的明确界定，我们将目光集中在“政策过程”、“精英”、“共识”几个显而易见的概念上，问题也就水落石出了。同时，问题清楚了，我们在筛选信息和资料时也就有了明确的标准，在这个“信息冗余”的时代，能够大大提高研究效率。二、如何做文献综述首先需要将“文献综述（ Literature Review) ”与“背景描述 (Backupground Description) ”区分开来。我们在选择研究问题的时候，需要了解该问题产生的背景和来龙去脉，如“中国半导体产业的发展历程”、“国外政府发展半导体产业的政策和问题”等等，这些内容属于“背景描述”，关注的是现实层面的问题，严格讲不是“文献综述”，关注的是现实层面问题，严格讲不是“文献综述”。“文献综述”是对学术观点和理论方法的整理。其次，文献综述是评论性的（ Review 就是“评论”的意思），因此要带着作者本人批判的眼光 (critical thinking) 来归纳和评论文献，而不仅仅是相关领域学术研究的“堆砌”。评论的主线，要按照问题展开，也就是说，别的学者是如何看待和解决你提出的问题的，他们的方法和理论是否有什么缺陷？要是别的学者已经很完美地解决了你提出的问题，那就没有重复研究的必要了。清楚了文献综述的意涵，现来说说怎么做文献综述。虽说，尽可能广泛地收集资料是负责任的研究态度，但如果缺乏标准，就极易将人引入文献的泥沼。技巧一：瞄准主流。主流文献，如该领域的核心期刊、经典著作、专职部门的研究报告、重要化合物的观点和论述等，是做文献综述的“必修课”。而多数大众媒体上的相关报道或言论，虽然多少有点价值，但时间精力所限，可以从简。怎样摸清该领域的主流呢？建议从以下几条途径入手：一是图书馆的中外学术期刊，找到一两篇“经典”的文章后“顺藤摸瓜”，留意它们的参考文献。质量较高的学术文章，通常是不会忽略该领域的主流、经典文献的。二是利用学校图书馆的“中国期刊网”、“外文期刊数据库检索”和外文过刊阅览室，能够查到一些较为早期的经典文献。三是国家图书馆，有些上世纪七八十年代甚至更早出版的社科图书，学校图书馆往往没有收藏，但是国图却是一本不少（国内出版的所有图书都要送缴国家图书馆），不仅如此，国图还收藏了很多研究中国政治和政府的外文书籍，从互联网上可以轻松查询到。技巧二：随时整理，如对文献进行分类，记录文献信息和藏书地点。做博士论文的时间很长，有的文献看过了当时不一定有用，事后想起来却找不着了，所以有时记录是很有必要的。罗仆人就积累有一份研究中国政策过程的书单，还特别记录了图书分类号码和藏书地点。同时，对于特别重要的文献，不妨做一个读书笔记，摘录其中的重要观点和论述。这样一步一个脚印，到真正开始写论文时就积累了大量“干货”，可以随时享用。技巧三：要按照问题来组织文献综述。看过一些文献以后，我们有很强烈的愿望要把自己看到的东西都陈述出来，像“竹筒倒豆子”一样，洋洋洒洒，蔚为壮观。仿佛一定要向读者证明自己劳苦功高。我写过十多万字的文献综述，后来发觉真正有意义的不过数千字。文献综述就像是在文献的丛林中开辟道路，这条道路本来就是要指向我们所要解决的问题，当然是直线距离最短、最省事，但是一路上风景颇多，迷恋风景的人便往往绕行于迤逦的丛林中，反面“乱花渐欲迷人眼”，“曲径通幽”不知所终了。因此，在做文献综述时，头脑时刻要清醒：我要解决什么问题，人家是怎么解决问题的，说的有没有道理，就行了。三、如何撰写开题报告问题清楚了，文献综述也做过了，开题报告便呼之欲出。事实也是如此，一个清晰的问题，往往已经隐含着论文的基本结论；对现有文献的缺点的评论，也基本暗含着改进的方向。开题报告就是要把这些暗含的结论、论证结论的逻辑推理，清楚地展现出来。写开题报告的目的，是要请老师和专家帮我们判断一下：这个问题有没有研究价值、这个研究方法有没有可能奏效、这个论证逻辑有没有明显缺陷。因此，开题报告的主要内容，就要按照“研究目的和意义”、“文献综述和理论空间”、“基本论点和研究方法”、“资料收集方法和工作步骤”这样几个方面展开。其中，“基本论点和研究方法”是重点，许多人往往花费大量笔墨铺陈文献综述，但一谈到自己的研究方法时但寥寥数语、一掠而过。这样的话，评审老师怎么能判断出你的研究前景呢？又怎么能对你的研究方法给予切实的指导和建议呢？对于不同的选题，研究方法有很大的差异。一个严谨规范的学术研究，必须以严谨规范的方法为支撑。在博士生课程的日常教学中，有些老师致力于传授研究方法；有的则突出讨论方法论的问题。这都有利于我们每一个人提高自己对研究方法的认识、理解、选择与应用，并具体实施于自己的论文工作中。

本文作者王军先生，电子科技大学通信与信息工程学院通信抗干扰技术重点实验室助教、硕士；吴军蹄女士，通信与信息工程学院教授。3 视频压缩标准视频编码标准主要由ITU-T和ISO/IEC开发。前者已经发布了视频会议标准、、，并且准备进行远期编码标准的开发，以期望获得更大的编码效率。ISO/IEC的标准系列是大家熟悉的MPEG家族。包括：(1)MPEG-1(1988～1992)，可以提供最高达的数字视频，只支持逐行扫描；(2)MPEG-2(1990～1994)，支持的带宽范围从2Mbps到超过20Mbps，MPEG-2后向兼容MPEG-1，但增加了对隔行扫描的支持，并有更大的伸缩性和灵活性；(3)MPEG-4(1994～1998)，支持逐行扫描和隔行扫描，是基于视频对象的编码标准，通过对象识别提供了空间的可伸缩性；(4)MPEG-7(1996～2000)，是多媒体内容描述接口，与前述标准集中在音频/视频内容的编码和表示不同，它集中在对多媒体内容的描述。除了上述通用标准外，还存在很多专用格式，比较流行的有：C-Cube的M-JPEG、Intel的IVI(tm)(Indeo Video Interactive)、Apple的QuickTime(tm)、Microsoft的 Media Player(tm)和RealNetworks的RealPlayer(tm)。二数字视频传输根据承载网络的变化和视频服务的区别，可以将数字视频的传输分为四类：数字电视、宽带视频通信、Internet视频流通信、蜂窝移动视频通信。虽然这四种通信体系下对视频通信的协议和服务有不同的要求，但对于实时应用下述几点是必须满足的：(1)传输必须限制在一定时限内完成；(2)必须对端到端的抖动建议限制；(3)必须有相应的同步机制；(4)在分组网络中应当有较高的优先级。1 数字电视广播欧洲走在了全球DVB开发最前面，将其采纳为数字电视DTV的标准；在美国，ATSC采用了HDTV；在亚太地区，日本采用了基于DVB和ATSC的ISDB-T，澳大利亚采用了DVB，韩国则采用了ATSC标准，我国也在制定数字电视的标准，并进行了现场试验。下面我们以欧洲的DTV标准为主分别介绍DTV系统规范和传输技术。系统规范根据传输系统的不同，DTV系统分为三类：陆基系统 DTV-T、卫星系统 DTV-S、有线系统 DTV-C。这三类DTV系统虽然各有不同，但也有公共的特性，MPEG-2视频和音频编码系统是所有DTV系统的基础。系统采用MPEG-2将数据压缩并组装成分组，称为净荷。对净荷采用Reed-Solomon前向纠错编码，降低信号传输中引入的误码。卫星系统采用单载波信号，采用外部编码的同时，内部加入了打孔卷积编码，从而又增加了一层误码纠错能力，根据带宽的变化和采用的特定设备，编码数据是可调整的，信号采用QPSK方式调制。陆基系统联合使用码正交频分复用 COFDM或者QPSK或QAM进行射频调制，采用了和卫星系统相似的打孔卷积编码。有线系统采用了QAM调制方案，不需要附加的内部编码来降低误码，系统优化采用64-QAM。b. DTV系统传输结构DTV系统广播和接收的基本结构由三个子系统构成：(1)信源编码和压缩子系统，通过ADC接受模拟视频和音频信号并将其转换成数字比特流，然后通过MPEG-2进行压缩，并加入控制和辅助数据；(2)服务复用和传递子系统，复用将视频和音频及辅助数据流联合构成长188字节的分组，并加上标记，分组构成单个数据流，采用MPEG-2传递系统语法控制这些复用任务；(3)传输子系统，包括对复用数据流的信道编码和调制。2 宽带视频通信这里讨论的宽带视频通信主要是指基于宽带核心网络和宽带接入技术的MPEG-2视频通信。为了满足实时视频通信对带宽的需求，核心网络通常采用宽带光纤网络，可以是ATM或者基于MPLS的宽带IP与ATM的结合，最后一公里的宽带接入的方法有光纤到户、光纤到楼双绞线到户及ADSL，最近也提出了宽带无线接入技术。通常，来自多个链路的数据业务在数字用户线路接入复用器(DSLAM)汇总。DSLAM将ATM业务路由到家中的ADSL接收器单元，同时，滤掉低频段的旧电话业务POTS 。在MPEG-2视频的情形下，ATM边界设备减轻信元的时延抖动的能力至关重要。ATM必须应付数据传输的需要并提供管理每个视频流的功能，特别要满足按序提取视频分组的要求。为了补偿网络传输延时，ATM网络边界设备必须精心设计以处理MPEG交换和抖动管理。本地MPEG-2视频流通过数字视频广播异步串行接口传输。ATM边界设备将MPEG-2多节目传输流(MPTS)或单节目传输流(SPTS)拆解到节目层并最终到分组标记(PID)层。在PID层，不同的节目流可以重新排序并复用进另外的MPTS。在ATM边界接收端，另外的边界设备管理ATM信元流，并重构SPTS或MPTS。本地的服务分布网络负责在本地的UTP网络分发视频内容。功能强大的MPEG-2压缩算法结合智能的ATM边界设备允许最后接入利用DSL技术作为视频分发的接入机制。（未完待续）相关信息：1.前言数字视频产品需求近些年出现猛增。主流应用包括视频通信、安全监控与工业自动化，而最热门的要算娱乐应用，如 DVD、HDTV、卫星电视、高清 (HD) 机顶盒、因特网视频流、数码相机与 HD 摄像机、视频光盘库 (video jukebox)、高端显示器（LCD、等离子显示器、DLP）以及个人摄像机等。众多精彩的新应用目前也处于设计或前期部署中，例如针对家庭与手持设备及地面／卫星标准（DVB-T、DVB-H、DMB）的高清 DVD（蓝光／HD-DVD）和数字视频广播、高清视频电话、数码相机以及 IP 机顶盒。由于手持终端计算能力的提高以及电池技术与高速无线连接的发展，最终产品的移动性与集成性也在不断提高。视频压缩是所有令人振奋的、新型视频产品的重要动力。压缩－解压（编解码）算法可以实现数字视频的存储与传输。典型的编解码器要么采用行业标准，如 MPEG2、MPEG4、与 AVS，要么采用专有算法，如 On2、Real Video、Nancy与Windows Media Video (WMV) 等。WMV 是个例外——它最初是微软公司的专有算法，而现在则以 VC-1 的新名称在业界实现了标准化。编解码技术在过去十年中不断改进。最新的编解码技术（与 VC-1）代表着第三代视频压缩技术。这两种编解码技术利用如可编程 DSP 与ASIC 等低成本 IC 的处理能力，都能够达到极高的压缩比。不过，为具体应用选择正确的编解码器并优化其实时处理仍然是一项巨大的挑战。最佳的设计必须权衡压缩效率及可用的计算能力。此外，如何在计算能力有限的情况下获得最佳压缩效率也是一门大学问。在本文中，我们首先概述视频编码的主要概念，同时介绍传统压缩标准。然后我们重点介绍其中包括、WMV9/VC-1与AVS 等在内的最新编解码技术的功能，此外，还将深入探讨压缩能力与复杂性之间的权衡。最后，讨论市场中可能会影响主流视频编解码器未来的实时处理与主要趋势。数字视频的主要挑战在于原始或未压缩的视频需要存储或传输大量数据。例如，标准清晰度的 NTSC 视频的数字化一般是每秒 30 帧速率，采用 4:2:2 YcrCb 及 720(480，其要求超过 165Mbps 的数据速率。保存 90 分钟的视频需要 110GB 空间，或者说超过标准 DVD-R 存储容量的 25 倍。即使是视频流应用中常用的低分辨率视频（如：CIF：352x288 4:2:0、30 帧/秒）也需要超过的数据速率，这是 ADSL 或 3G 无线等宽带网络速度的许多倍。目前的宽带网可提供 1～10Mbps 的持续传输能力。显然数字视频的存储或传输需要采用压缩技术。视频压缩的目的是对数字视频进行编码——在保持视频质量的同时占用尽可能少的空间。编解码技术理论依据为信息理论的数学原理。不过，开发实用的编解码技术需要艺术性的精心考虑。3. 压缩权衡在选择数字视频系统的编解码技术时需要考虑诸多因素。主要因素包括应用的视频质量要求、传输通道或存储介质所处的环境（速度、时延、错误特征）以及源内容的格式。同样重要的还有预期分辨率、目标比特率、色彩深度、每秒帧数以及内容和显示是逐行扫描还是隔行扫描。压缩通常需要在应用的视频质量要求与其他需求之间做出取舍。首先，用途是存储还是单播、多播、双向通信或广播？对于存储应用，到底有多少可用的存储容量以及存储时间需要多久？对于存储之外的应用，最高比特率是多少？对于双向视频通信，时延容差或容许的端到端系统延迟是多少？如果不是双向通信，内容需要在脱机状态提前完成编码还是需要实时编码？网络或存储介质的容错能力如何？根据基本目标应用，不同压缩标准以不同方式处理这些问题的权衡。另一方面是需要权衡编解码实时处理的成本。如或 WMV9/VC-1等能够实现较高压缩比的新算法需要更高的处理能力，这会影响编解码器件的成本、系统功耗以及系统内存。4. 标准化机构在视频编解码技术定义方面有两大标准机构。国际电信联盟 (ITU) 致力于电信应用，已经开发了用于低比特率视频电话的标准，其中包括、、与；国际标准化组织 (ISO) 主要针对消费类应用，已经针对运动图像压缩定义了 MPEG 标准。MPEG 标准包括 MPEG1、MPEG2 与 MPEG4。图 1 说明了视频编解码标准的发展历程。MPEG 与 ISO 根据基本目标应用往往做出稍有不同的取舍。有时它们也会开展合作，如：联合视频小组 (JVT)，该小组定义了编解码技术，这种技术在 MPEG 系列中又被称为 MPEG4-Part 10 或 MPEG4 高级视频编解码 (AVC)。我们在本文中将这种联合标准称为。同样，对应 MPEG2，而基本规范类 (Baseline Profile) 技术在原理方面与 MPEG4 简单类 (Simple Profile) 编解码技术存在较多重复。标准对编解码技术的普及至关重要。出于规模经济原因，用户根据可承受的标准寻找相应产品。由于能够保障厂商之间的互操作性，业界乐意在标准方面进行投资。而由于自己的内容可以获得较长的生命周期及广泛的需求，内容提供商也对标准青睐有加。尽管几乎所有视频标准都是针对少数特定应用的，但是在能够适用的情况下，它们在其他应用中也能发挥优势。图1：ITU 与 MPEG 标准的发展历程 [10]为了实现更好的压缩及获得新的市场机遇，ITU 与 MPEG 一直在不断发展压缩技术和开发新标准。中国最近开发了一种称为 AVS 的国家视频编码标准，我们在后面也会做一介绍。目前正在开发的标准包括 ITU/MPEG 联合可扩展视频编码 (Joint Scalable Video Coding)（对 H264/ AVC 的修订）和MPEG 多视角视频编码 (Multi-view Video Coding)。另外，为了满足新的应用需求，现有标准也在不断发展。例如，最近定义了一种称为高精度拓展 (Fidelity Range Extensions) 的新模式，以满足新的市场需求，如专业数字编辑、HD-DVD 与无损编码等。除了 ITU 与 ISO 开发的行业标准以外，还出现了几种专用于因特网流媒体应用、广受欢迎的专有解决方案，其中包括 Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy。由于这些格式在内容中得到了广泛应用，因此专有编解码技术可以成为业界标准。2003 年 9 月，微软公司向电影与电视工程师学会 (SMPTE) 提议在该机构的支持下实现 WMV9 位流与语法的标准化。该提议得到了采纳，现在 WMV9 已经被 SMPTE 作为 VC-1 实现标准化。5. 视频编码原理我们感兴趣的所有视频标准都采用基于模块的处理方式。每个宏模块一般包含 4 个 8(8 的光度块和 2 个 8(8 的色度块（4:2:0 色度格式）。视频编码基于运动补偿预测（MC），变换与量化及熵编码。图 2 说明的是一种典型的、基于运动补偿的视频编解码技术。在运动补偿中，通过预测与最新编码的（"参考"）视频帧处于同一区域的视频帧中各宏模块的像素来实现压缩。例如，背景区域通常在各帧之间保持不变，因此不需要在每个帧中重新传输。运动估计 (ME) 是确定当前帧——即与它最相似的参考帧的 16(16 区域中每个 MB 的过程。ME 通常是视频压缩中最消耗性能的功能。有关当前帧中各模块最相似区域相对位置的信息（"运动矢量"）被发送至解码器。MC 之后的残差部分分为 8(8 的模块，各模块综合利用变换编码、量化编码与可变长度编码技术进行编码。变换编码（如：离散余弦变换或 DCT）利用残差信号中的空间冗余。量化编码可以消除感知冗余 (perceptual redundancy) 并且降低编码残差信号所需要的数据量。可变长度编码利用残差系数的统计性质。通过 MC 进行的冗余消除过程在解码器中以相反过程进行，来自参考帧的预测数据与编码后的残差数据结合在一起产生对原始视频帧的再现。图 2：标准运动补偿视频编码在视频编解码器中，单个帧可以采用三个模式中的一个进行编码 —— 即 I、P 或 B 帧模式（见图 3）。几个称为 Intra (I) 的帧单独编码，无需参考任何其他帧（无运动补偿）。某些帧可以利用 MC 编码，以前一个帧为参考（前向预测）。这些帧称为预测帧 (P)。B 帧或双向预测帧通过之前的帧以及当前帧的后续帧进行预测。B 帧的优势是能够匹配堵塞在采用前向预测的上一帧中的背景区域。双向预测通过平衡前向及后向预测可以降低噪声。在编码器中采用这种功能会要求更多处理量，因为必须同时针对前向及后向预测执行 ME，而这会明显使运动估计计算需求加倍。为了保存两个参考帧，编码器与解码器都需要更多内存。B 帧工具需要更复杂的数据流，因为相对采集及显示顺序而言，帧不按顺序解码。这个特点会增加时延，因此不适合实时性较高的应用。B 帧不用于预测，因此可以针对某些应用进行取舍。例如，在低帧速应用中可以跳过它们而不会影响随后 I 与 P 帧的解码。图3：I、P 与 B 帧间预测图示6. 传统视频编码标准编制的 [2] 标准是第一个主流视频压缩标准。它主要针对双工视频会议应用，是为支持 40kpbs～2Mbps 的 ISDN 网络而设计的。支持 352(288 (CIF) 及 176(144 (QCIF) 分辨率，色度分辨率二次采样为 4:2:0。由于可视电话需要同步实时编解码，因此复杂性设计得较低。由于主要用于对延迟敏感的双向视频，因此仅允许采用 I 与 P 帧，而不允许 B 帧。采用基于块的 DCT 进行残差信号的变换编码。DCT 把像素的每个 8(8 块映射到频域，产生 64 个频率成分（第一个系数称为 DC，其他的称为 AC）。为了量化 DCT 系数，在所有 AC 系数中采用固定的线性量化。量化后的系数进行行程编码，其可以按非零系数描述量化的频率，后面跟随一串零系数，在最后一个非零值之后以块代码结束。最后，可变长度编码 (Huffman) 将运行级别对 (run-level pair) 转换成可变长度编码 (VLC)，其比特长度已针对典型概率分布进行过优化。基于标准块的编码最终产生模块化视频。标准利用环路滤波避免这种现象。在模块边缘采用的简单 2D FIR 滤波器用于平滑参考帧中的量化效应。必须同时在编码器及解码器中精确地对每个比特应用上述滤波。MPEG-1MPEG-1[3] 是 ISO 开发的第一个视频压缩算法。主要应用是数字媒体上动态图像与音频的存储与检索，如速率为、采用 SIF 分辨率（352(240 - 或者 352(288 - 25 fps）的VCD。MPEG-1 与相似，不过编码器一般需要更高的性能，以便支持电影内容的较高运动性而不是典型的可视电话功能。与相比，MPEG1 允许采用 B 帧。另外它还采用自适应感知量化，也就是说，对每个频段采用单独的量化比例因子（或等步长），以便优化人们的视觉感受。MPEG-1 仅支持逐行视频，因此新标准——MPEG2 已经开始做出努力，同时支持分辨率及比特率更高的逐行与隔行视频。MPEG-2/[4] 专门针对数字电视而开发，很快成为了迄今最成功的视频压缩标准。MPEG-2 既能够满足标准逐行视频的需求（其中视频序列由一系列按一定时间间隔采集的帧构成），又能够满足电视领域常用的隔行视频的需求。隔行视频交替采集及显示图像中两组交替的像素（每组称为一个场）。这种方式尤其适合电视显示器的物理特性。MPEG2 支持标准的电视分辨率，其中包括：针对美国和日本采用的 NTSC 制式隔行 720(480 分辨率，每秒 60 场，以及欧洲和其他国家采用的PAL 制式的 720(576 分辨率，每秒 50 场。MPEG-2 建立在 MPEG-1 基础之上，并具备扩展功能，能支持隔行视频及更宽的运动补偿范围。由于高分辨率视频是非常重要的应用，因此 MPEG-2 支持的搜索范围远远大于 MPEG-1。与之前的标准相比，它显著提高了运动估计的性能要求，并充分利用更宽搜索范围与更高分辨率优势的编码器需要比和 MPEG-1 高得多的处理能力。MPEG2 中的隔行编码工具包含优化运动补偿的能力，同时支持基于场和基于帧的预测，而且同时支持基于场和基于帧的 DCT/IDCT。MPEG-2 在 30:1 左右的压缩比时运行良好。MPEG-2 在 4-8Mbps 时达到的质量适合消费类视频应用，因此它很快在许多应用中得到普及，如：数字卫星电视、数字有线电视、DVD 以及后来的高清电视等。另外，MPEG-2 增加了分级视频编码工具，以支持多层视频编码，即：时域分级、空域分级、SNR 分级以及数据分割。尽管 MPEG-2 中针对分级视频应用定义了相关类别 (profile)，不过支持单层编码的主类 (Main Profile) 是当今大众市场中得到广泛应用的唯一 MPEG-2 类。MPEG-2 通常称为 MPEG-2 主类。MPEG-2 解码最初对于通用处理器及 DSP 具有很高的处理要求。优化的固定功能 MPEG-2 解码器开发已问世，由于使用量较高，成本已逐渐降低。MPEG2 证明低成本芯片解决方案的供应是视频编解码标准成功和普及的关键。[5] 在之后得到开发，主要是为了以更低的比特率实现更高的质量。其主要目标之一是基于普通电话调制解调器的视频。目标分辨率是 SQCIF (128(96)～CIF (352(288)。其基本原理与大同小异。的运动矢量在两个方向上允许是 1/2 的倍数（“半像素”），参考图像以数字方式内插到更高的分辨率。这种方法可以提高 MC 精度及压缩比。MV 可采用更大的范围。为不同方案提供许多新的选项，包括：* 4 个运动矢量——每个块采用一个运动矢量，而非整个 MB 采用单个运动矢量。* 3D VLC：Huffman 编码——将块结束 (EOB) 指示符与每个运行级别对结合在一起。这种功能主要用于低比特率，这时大多时候只有一、两个编码系数。尽管存在这些功能，但是仍然很难在普通电话线上实现理想的视频质量，而且目前基于标准调制解调器的可视电话仍然是一个难题。不过，由于一般情况下可提供优于的效率，它成为了电视会议首选的算法，但是，为了兼容旧系统，仍然需要支持。逐渐发展成为了，其增加了可选的附件，为提高压缩并实现分组网的鲁棒性提供支持。及其附件构成了 MPEG-4 中许多编码工具的核心。MPEG-4MPEG-4[6] 由 ISO 提出，以延续 MPEG-2 的成功。一些早期的目标包括：提高容错能力以支持无线网、对低比特率应用进行更好的支持、实现各种新工具以支持图形对象及视频之间的融合。大部分图形功能并未在产品中受到重视，相关实施主要集中在改善低比特率压缩及提高容错性上。.MPEG-4 简化类 (SP) 以为基础，为改善压缩增加了新的工具，包括：* 无限制的运动矢量：支持对象部分超出帧边界时的预测。* 可变块大小运动补偿：可以在 16(16 或 8(8 粒度下进行运动补偿。* 上下文自适应帧内 DCT DC/AC 预测：可以通过当前块的左右相邻块预测 DC/AC DCT 系数。* 扩展量化 AC 系数的动态范围，支持高清视频：从的 [-127:127] 到 [-2047, 2047]。增加了容错功能，以支持丢包情况下的恢复，包括：* 片断重同步 (Slice Resynchronization)：在图像内建立片断 (slice)，以便在出现错误后更快速的进行重新同步。与 MPEG-2 数据包大小不同，MPEG4 数据包大小与用于描述 MB 的比特数量脱离了联系。因此，不管每个 MB 的信息量多少，都可以在位流中按相同间隔进行重新同步。* 数据分割：这种模式允许利用唯一的运动边界标记将视频数据包中的数据分割成运动部分和 DCT 数据部分。这样就可以实现对运动矢量数据更严格的检查。如果出现错误，我们可以更清楚地了解错误之处，从而避免在发现错误情况下抛弃所有运动数据。* 可逆 VLC：VLC 编码表允许后向及前向解码。在遇到错误时，可以在下一个slice进行同步，或者开始编码并且返回到出现错误之处。* 新预测 (NEWPRED)：主要用于在实时应用中实现快速错误恢复，这些应用中的解码器在出现丢包情况下采用逆向通道向解码器请求补充信息。MPEG-4 高级简化类 (ASP) 以简化类为基础，增加了与 MPEG-2 类似的 B 帧及隔行工具（用于Level 4 及以上级别）。另外它还增加了四分之一像素运动补偿及用于全局运动补偿的选项。MPEG-4 高级简化类比简化类的处理性能要求更高，而且复杂性与编码效率都高于 MPEG-2。MPEG-4 最初用于因特网数据流，例如，已经被 Apple 的 QuickTime 播放器采用。MPEG-4 简化类目前在移动数据流中得到广泛应用。MPEG-4 ASP 是已经流行的专有 DivX 编解码器的基石。工具与压缩增益当我们查看、MPEG1、MPEG2 与视频编解码技术中引入的功能时，明显可以发现几种基本技巧提供了大部分压缩增益。图 4 说明这些技巧及其相关效果。与 4 个运动矢量以及四分之一像素运动补偿等工具相比，运动补偿（整数像素与半像素）的效果显然更为突出。图 4：基本技巧的效果：1) 无 MC；2) 增加 Skip 模式构成 CR 编码器；3) 仅允许零 MV；4) 允许整数像素 MC；5) 允许半像素 MC；6) 允许 4-MV；7) 允许四分之一像素MC。如欲了解有关详细说明，敬请参见 [7]。7. MPEG4-AVC视频编码技术在过去几年最重要的发展之一是由 ITU 和 ISO/IEC 的联合视频小组 (JVT) 开发了 AVC[8] 标准。在发展过程中，业界为这种新标准取了许多不同的名称。ITU 在 1997 年开始利用重要的新编码工具处理（长期），结果令人鼓舞，于是 ISO 决定联手 ITU 组建 JVT 并采用一个通用的标准。因此，大家有时会听到有人将这项标准称为 JVT，尽管它并非正式名称。ITU 在 2003 年 5 月批准了新的标准。ISO 在 2003 年 10 月以 MPEG-4 Part 10、高级视频编码或 AVC 的名称批准了该标准。在压缩效率方面取得了巨大突破，一般情况下达到 MPEG-2 及 MPEG-4 简化类压缩效率的大约 2 倍。在 JVT 进行的正式测试中 [9]，在 85 个测试案例中有 78％的案例实现倍以上的编码效率提高，77％的案例中达到 2 倍以上，部分案例甚至高达 4 倍。实现的改进创造了新的市场机遇，如：* 600Kbps 的 VHS 品质视频。可以通过 ADSL 线路实现视频点播。* 高清晰电影无需新的激光头即可适应普通 DVD。标准化时支持三个类别：基本类、主类及扩展类。后来一项称为高保真范围扩展 (FRExt) 的修订引入了称为高级类的 4 个附加类。在初期主要是基本类和主类引起了大家的兴趣。基本类降低了计算及系统内存需求，而且针对低时延进行了优化。由于 B 帧的内在时延以及 CABAC 的计算复杂性，因此它不包括这两者。基本类非常适合可视电话应用以及其他需要低成本实时编码的应用。主类提供的压缩效率最高，但其要求的处理能力也比基本类高许多，因此使其难以用于低成本实时编码和低时延应用。广播与内容存储应用对主类最感兴趣，它们是为了尽可能以最低的比特率获得最高的视频质量。尽管采用与旧标准相同的主要编码功能，不过它还具有许多与旧标准不同的新功能，它们一起实现了编码效率的提高。图 5 的编码器框图总结了其主要差别，概述如下：帧内预测与编码：采用空域帧内预测技术来预测相邻块邻近像素的 Intra-MB 中的像素。它对预测残差信号和预测模式进行编码，而不是编码块中的实际像素。这样可以显著提高帧内编码效率。帧间预测与编码：中的帧间编码采用了旧标准的主要功能，同时也增加了灵活性及可操作性，包括适用于多种功能的几种块大小选项，如：运动补偿、四分之一像素运动补偿、多参考帧、通用 (generalized) 双向预测和自适应环路去块。可变矢量块大小：允许采用不同块大小执行运动补偿。可以为小至 4(4 的块传输单个运动矢量，因此在双向预测情况下可以为单个 MB 传输多达 32 个运动矢量。另外还支持 16(8、8(16、8(8、8(4 和 4(8 的块大小。降低块大小可以提高运动细节的处理能力，因而提高主观质量感受，包括消除较大的块化失真。四分之一像素运动估计：通过允许半像素和四分之一像素运动矢量分辨率可以改善运动补偿。多参考帧预测：16 个不同的参考帧可以用于帧间编码，从而可以改善视频质量的主观感受并提高编码效率。提供多个参考帧还有助于提高位流的容错能力。值得注意的是，这种特性会增加编码器与解码器的内存需求，因为必须在内存中保存多个参考帧。自适应环路去块滤波器：采用一种自适应解块滤波器，它会在预测回路内

数字技术的出现与应用为人类带来了深远的影响，人们如今已生活在一个几乎数字化的世界之中，而数字音频技术则称得上是应用最为广泛的数字技术之一，CD、 VCD等早已走进千家万户，数字化广播正在全球范围内逐步得到开展，正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题：数字音频压缩技术得以产生和发展的动力。1、音频压缩技术的出现及早期应用音频压缩技术指的是对原始数字音频信号流（PCM编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。数字信号的优势是显而易见的，而它也有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。以CD为例，其采样率为，量化精度为16比特，则1分钟的立体声音频信号需占约10M字节的存储容量，也就是说，一张CD唱盘的容量只有1小时左右。当然，在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢？研究发现，直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声音至少可进行4：1压缩，即只用25％的数字量保留所有的信息，而在视频领域压缩比甚至可以达到几百倍。因而，为利用有限的资源，压缩技术从一出现便受到广泛的重视。对音频压缩技术的研究和应用由来已久，如A律、u律编码就是简单的准瞬时压扩技术，并在ISDN话音传输中得到应用。对语音信号的研究发展较早，也较为成熟，并已得到广泛应用，如自适应差分PCM（ADPCM）、线性预测编码（LPC）等技术。在广播领域，NICAM（Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用）等系统中都使用了音频压缩技术。 2、音频压缩算法的主要分类及典型代表一般来讲，可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类，而按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。（1）时域压缩（或称为波形编码）技术是指直接针对音频PCM码流的样值进行处理，通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低，声音质量一般，压缩比小（CD音质> 400kbps），编解码延时最短（相对其它技术）。此类压缩技术一般多用于语音压缩，低码率应用（源信号带宽小）的场合。时域压缩技术主要包括、ADPCM、LPC、CELP，以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM（SB-ADPCM）技术如、、Apt-X等。（2）子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型（心理声学模型），通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的，因此又可称为感知型（Perceptual）压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。一般来讲，子带编码的复杂度要略低于变换编码，编码延时也相对较短。由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型，因而在对信号进行压缩时引入了大量的量化噪声。然而，根据人类的听觉掩蔽曲线，在解码后，这些噪声被有用的声音信号掩蔽掉了，人耳无法察觉；同时由于子带分析的运用，各频带内的噪声将被限制在频带内，不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同，采用了动态比特分配技术，这也正是此类技术压缩效率高的主要原因。在一定的码率条件下，此类技术可以达到“完全透明”的声音质量（EBU音质标准）。子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ（MUSICAM），以及用于Philips DCC中的PASC（Precision Adaptive Subband Coding，精确自适应子带编码）等。（3）变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换，对所获得的变换域参数进行量化、传输，而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT（离散余弦变换）、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善，而相应付出的代价则是计算复杂度的提高。变换域压缩具有一些不完善之处，如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步，这些缺陷正逐步被消除，同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC（Audio Spectral Perceptual Entropy Coding）、PAC（PerceptualAudioCoder）等。 3、音频压缩技术的标准化和MPEG-1 由于数字音频压缩技术具有广阔的应用范围和良好的市场前景，因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT（现ITU-T）在语音信号压缩的标准化方面做了大量的工作，制订了如、、等标准，并逐渐受到业界的认同。在音频压缩标准化方面取得巨大成功的是MPEG-1音频（ISO/IEC11172-3）。在MPEG-1中，对音频压缩规定了三种模式，即层Ⅰ、层Ⅱ（即MUSICAM，又称MP2），层Ⅲ（又称MP3）。由于在制订标准时对许多压缩技术进行了认真的考察，并充分考虑了实际应用条件和算法的可实现性（复杂度），因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ；而MUSICAM由于其适当的复杂程度和优秀的声音质量，在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用；MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术，在当时的技术条件下，MP3的复杂度显得相对较高，编码不利于实时，但由于MP3在低码率条件下高水准的声音质量，使得它成为软解压及网络广播的宠儿。可以说，MPEG-1音频标准的制订方式决定了它的成功，这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。最新进展 1、多声道音频信号压缩与DolbyAC-3 随着技术的不断进步和生活水准的不断提高，原有的立体声形式已不能满足受众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。更准确地说，环绕声应该是一种声音恢复形式，其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟，已日渐成为未来声音形式的主流。有鉴于此，1992年CCIR（ITU-R）以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准，即CCIR Recommendation 775。其中主要约定了大家熟知的声道形式及声道形式，而在对环绕声压缩的研究上也产生了许多专利技术，如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合，尤其是在影剧院、家庭影院系统，及将来的高清晰度电视（HDTV）等系统中得到广泛的应用。（1）Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在声道的条件下，可将码率压缩至384kbps，压缩比约为10：1。Dolby AC-3最初是针对影院系统开发的，但目前已成为应用最为广泛的环绕声压缩技术之一。Dolby AC-3是一种感知型压缩编码技术。在Dolby AC-3中，音频输入以音频块为单位，块长度为512个样值，在48KHz采样率时即为毫秒，各声道单独处理；音频输入在经过3Hz高通滤波器去除直流成分后，通过另一高频带通滤波器以检测信号的瞬变情况，并用它来控制TDAC变换的长度，以期在频域分辨率和时域分辨率之间得到最好的折中效果； TDAC变换的长度一般为512点，而数据块之间的重叠长度为256点，即TDAC每毫秒进行一次；在瞬变条件下，TDAC长度被等分为256 点，这样DolbyAC-3的频域分辨率为，时域最小分辨率为毫秒；在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用，主要是为了获得宽的动态范围，而在分离后的指数部分经编码后则构成了整个信号大致的频谱，又被称为频谱包络；比特分配主要是通过计算解码后的频谱包络（视为功率谱密度）和掩蔽曲线的相关性来进行的；由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术，因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配；在对尾数的量化过程中，可对尾数进行抖晃处理，抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果；AC -3的帧结构由同步字、CRC、同步信息（SI）、码流信息（BSI）、音频块和附加数据等组成，帧长度与TDAC变换的长度有关，在长度为512点时，帧长为32毫秒，即每秒帧。通过以上叙述可见，在Dolby AC-3中，使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。可以说，AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶（从一定的角度来看，编码技术实际上就是降低编码噪声影响的技术），在技术上它具有很强的优势。因而即使作为一项专利技术，DolbyAC-3仍然在影院系统、HDTV、消费类电子产品（如LD、DVD）及直播卫星等方面获得了广泛的应用，得到了众多厂商的支持，成为业界事实上的标准。（2）MPEG-2BC（后向兼容方式），即ISO/IEC13818- 3，是另一种多声道环绕声音频压缩技术。早在1992年初，该方面的讨论工作便已初步开展，并于94年11月正式获得通过。MPEG-2BC主要是在 MPEG-1和的基础上发展起来的。与MPEG-1相比较，MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式，二是为某些低码率应用场合，如多语声节目、体育比赛解说等而进行的低采样率扩展。同时，标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容，并可依据CCIR 做到与双声道、单声道形式的向下兼容，还能够与Dolby Surround形式兼容。在MPEG-2BC中，由于考虑到其前、后向兼容性以及环绕声音形式的新特点，在压缩算法中除承袭了MPEG-1的绝大部分技术外，为在低码率条件下进一步提高声音质量，还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(Phantom Coding of Center)、预编码(Predistortion)等。然而，MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现，MPEG-2BC的编码框图在标准化过程中发生了重大的变化，上述的许多新技术都是在后期引入的。事实上，正是与 MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点，使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下，MPEG -2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快，其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。（3）DVD（DigitalVersatileDisk）是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上，AC-3和MPEG-2BC之间的争夺十分激烈，最后达成的协议如表1 所示。可见，多声道环绕声音频压缩技术标准亟待统一。

MP3 MP3原本用于表述MPEG1 Layer 3，但是日常应用中已经发展至包含Layer 1, Layer 2以及Fraunhofer Institute所扩展的MPEG 。MP3是得到最高认知度的编解码器之一，在互联网编解码器中具有最大的用户群。但是为达到近CD品质音频，对某些难应付的内容需要高于192kbps速率。 [编辑]MPEG1、Part 3 (ISO/IEC 11172-3) 定义了双声道，采样率为32、或者48KHz，编码率从32 到 384kbps的编解码方法。此标准描述了三个相关方法：Layers I、II、和 III。Layer III提供最高的压缩率，但是复杂度也最高。 [编辑]MPEG2、Part 3 (ISO/IEC 13818-3) 对MPEG1标准提供了两个重要的改进。首先，低比特率需求通过使“低采样率(LSF)”扩展标准化而得到满足。该编解码器提供了16、、和24kHz采样率编码方法；其次，MPEG1模式被扩展为支持上至12声道的音频数据。Fraunhofer的低频率扩展，即，提供了MPEG2一半的采样频率选择：8、和12kHz。 [编辑]数字杜比(AC-3) 目前，数字杜比具有最大的多声道编解码用户群。通过将多声道整合至单一编码对象中，数字杜比实现了高品质、低复杂度音频压缩。尽管该算法与编码声道的数量无关，目前的实现方案已经接受了SMPTE的建议，即采用了由5个全带宽音频声道和1个用于低音的分带宽声道组成声道：分别为左、中、右、左环绕、右环绕和低频扩展(LFE)。数字杜比支持灵活的播放方式：1声道到声道，32、或者48KHz采样率，比特率从32 到640kbps。解码后的音频可自动匹配播放系统以提供与音响配置无关的最佳品质的音效。 [编辑]aacPlus系列编解码器 Coding Technologies公司已经开发了一系列得到国际标准组织广泛采用的编解码器。MPEG2采用了AAC，以128kbps提供接近CD的品质，即使对于特别复杂的内容也如此。aacPlus v1被DVD论坛、DVB、Digital Radio Mondiale、3GPP2和ISMA等组织定为标准。aacPlus v2在2004年末开始商用，已被指定为3GPP中的高品质音频编解码器，aacPlus v 2的所有组件都是MPEG-4音频规范的组成部分。 [编辑]AAC aacPlus系列编解码器均是围绕MPEG2、Part 7(ISO/IEC 13818-7)所描述的AAC核心而建立。AAC提供8、11、12、16、22、24、32、44、 48、63、88或者96kHz的采样率，以及高达48声道的音频，每个声道比特率可高达288kbps。其定义了三个紧密相关的方案：低复杂度(Low Complexity)、Main和可伸缩采样率(SSR)。低复杂度的AAC-LC需要非常少的处理器资源，因此通常用于嵌入式应用中。 [编辑]MPEG4、Part 3(ISO/IEC 14496-3) 为MPEG2 AAC增加了知觉噪音替代(PNS)工具，因此定义为MPEG4 AAC。PNS通过对类噪声信号的参数化编码，从而简化这些信号的表达方法。不能将PNS与MPEG2、MPEG4中的时域噪声整形(TNS)相混淆。 [编辑]aacPlus V1 该编解码器有时被称为“高效AAC”(HE-AAC)。它整合了基本的AAC编解码器和频带复制(SBR)技术。SBR是一种频带扩展技术，可使几乎任何音频编解码器在比特率下降30％时仍能保证音质。SBR通过使用频带低半部分信息加上一些编码参数来表达频带的高半部分信息。SBR技术也可用于其他编解码器，例如结合带MP3的SBR构成了MP3Pro编解码器。 [编辑]aacPlus V2 在aacPlus V1中增加参数化立体声(PS)技术，形成了aacPlus V2编解码器。PS技术使用左声道和一些额外的编码参数，生成右声道，进一步降低了比特率。aacPlus V2在160 Kbps下可达到声道品质，在48Kbps可达到近CD立体声品质，在32 Kbps下可达到极佳立体声效果，在24Kbps下可达到娱乐品质立体声效果，在低于16Kbps时可达到高品质单声道效果。aacPlus V2的效率使移动数字广播新应用成为可能。 [编辑]WMA WMA是微软授权的Windows Media Series中一系列广泛使用的音频编解码器。此系列中最新版本是WMA9、WMA9 Professional、WMA9 Lossless、WMA9 Voice 和WMA9 Variable Bit Rate(VBR)。在嵌入式应用中，WMA9是此系列中最常见的编解码器；提供16位/320kbps双通道，采样率高达48KHz。“Professional”支持24位、96KHz采样率和高达128到768kbps的声道。与数字杜比相同，解码后的音频可自动匹配播放系统，以提供和音响配置无关最佳品质的音效。“Lossless”用于CD存档，压缩率在2:1和3:1之间。“Voice”用于压缩语音至20kbps。尽管VBR对于大部分的流应用并不理想，但WMA9和“Professional”都能以可变比特率编码。“Lossless”则总是使用VBR功能。 [编辑]Ogg Vorbis 为无需专利费用的开放资源，具有近似于MP3的音质。“ogg”是容器格式，而“Vorbis”为音频编解码器。由于它免除了与MP3游戏音乐相关的按每游戏收取的许可费用，因此Ogg Vorbis在电脑游戏厂商中使用率日益上升。

视频编辑器

1、KineMaster（巧影）

《巧影KineMaster》是一款在Android系统上运行的视频剪辑软件，不仅包含了剪切、添加背景音乐、滤镜等实用功能，而且还添加了多图层剪辑、色度键、音量包络线、手机端实时预览等超强剪辑功能。

2、威力导演

《威力导演PowerDirector》在电脑上就大名鼎鼎的一款视频剪辑软件，现在已将获奖无数的威力导演从台式机带至安卓移动装置！仅需汇入拍摄片段、修剪影片、添加特效和文字，即可导出高清视频。

3、维翠视频编辑器专业版

《维翠视频编辑器专业版VidTrimPro》是适用于Android设备的视频编辑和管理程序，包含多项功能，如修剪、合并、图像抓取、视频效果、提取音频（转换成MP3）和转码（压缩和转换为MP4）。

4、VideoShow

《乐秀VideoShowVideoEditor》是手机视频编辑神器之一，免费，不限制作时长！乐秀用户专享上万首精挑细选的歌曲免费下载制作视频。所有音乐都已经购买了版权，随意使用给视频添加理想的背景音乐！

5、威力酷剪

《威力酷剪ActionDirectorVideoEditor》是专为运动摄影玩家量身打造的视频创作软件。内建简易上手的操作接口和清楚操作说明，即使是创作新手也能轻松添加特效或背景音乐，快速打造惊艳作品，并直接上传！

手机视频制作有很多软件，根据操作难易，选择适合自己的来操作即可。推荐以下几个供参考选择：美图秀秀、VUE、乐秀视频编辑器、小影、巧影。

1、美图秀秀

众所皆知，美图秀秀以人像美容等修图功能，赫赫有名。但你一定不知道近期，美图秀秀上出现了一个旅行VLOG功能。直接拍摄视频，点击VLOG功能，自动添加片头片尾。直接生成一步简短小影片。只需一键自动生成。容易上手。不额外占用内存。

2、VUE

VUE是一款非常强大的APP，软件内自带滤镜、音乐等等皆为高逼格电影级别。可直接拍摄视频进行剪辑，也可使用原相机拍摄后再导入APP进行剪辑。具有草稿功能，画幅可选择性强，最特别的是它可以设置镜头速度。而且值得一提的是，APP内可设置是否开启水印。

3、乐秀视频编辑器

这款软件功能全面，大小约为50M，基本上任何手机用起来都游刃有余。而且这款软件零广告，超级清爽。除此之外，强大的素材库超级加分，内置各种类型的素材，都可以一键下载。

4、小影

小影相对来说是一款比较专业的视频编辑软件。功能也比较齐全，很多短视频都使用小影进行后期制作。小影的视频编辑功能很齐全，视频动态壁纸、视频社区、视频特效等都是比较有特色的。

5、巧影

巧影这款软件对于很多人来说一定不陌生，是一款全功能的专业视频编辑软件，能为用户提供多图层功能。而且巧影还能实现精准裁剪、色度键等多项专业编辑功能。这款软件要求的技术性比较高，更适合有一定基础的小伙伴使用。

视频压缩算法学术论文

本文作者王军先生，电子科技大学通信与信息工程学院通信抗干扰技术重点实验室助教、硕士；吴军蹄女士，通信与信息工程学院教授。3 视频压缩标准视频编码标准主要由ITU-T和ISO/IEC开发。前者已经发布了视频会议标准、、，并且准备进行远期编码标准的开发，以期望获得更大的编码效率。ISO/IEC的标准系列是大家熟悉的MPEG家族。包括：(1)MPEG-1(1988～1992)，可以提供最高达的数字视频，只支持逐行扫描；(2)MPEG-2(1990～1994)，支持的带宽范围从2Mbps到超过20Mbps，MPEG-2后向兼容MPEG-1，但增加了对隔行扫描的支持，并有更大的伸缩性和灵活性；(3)MPEG-4(1994～1998)，支持逐行扫描和隔行扫描，是基于视频对象的编码标准，通过对象识别提供了空间的可伸缩性；(4)MPEG-7(1996～2000)，是多媒体内容描述接口，与前述标准集中在音频/视频内容的编码和表示不同，它集中在对多媒体内容的描述。除了上述通用标准外，还存在很多专用格式，比较流行的有：C-Cube的M-JPEG、Intel的IVI(tm)(Indeo Video Interactive)、Apple的QuickTime(tm)、Microsoft的 Media Player(tm)和RealNetworks的RealPlayer(tm)。二数字视频传输根据承载网络的变化和视频服务的区别，可以将数字视频的传输分为四类：数字电视、宽带视频通信、Internet视频流通信、蜂窝移动视频通信。虽然这四种通信体系下对视频通信的协议和服务有不同的要求，但对于实时应用下述几点是必须满足的：(1)传输必须限制在一定时限内完成；(2)必须对端到端的抖动建议限制；(3)必须有相应的同步机制；(4)在分组网络中应当有较高的优先级。1 数字电视广播欧洲走在了全球DVB开发最前面，将其采纳为数字电视DTV的标准；在美国，ATSC采用了HDTV；在亚太地区，日本采用了基于DVB和ATSC的ISDB-T，澳大利亚采用了DVB，韩国则采用了ATSC标准，我国也在制定数字电视的标准，并进行了现场试验。下面我们以欧洲的DTV标准为主分别介绍DTV系统规范和传输技术。系统规范根据传输系统的不同，DTV系统分为三类：陆基系统 DTV-T、卫星系统 DTV-S、有线系统 DTV-C。这三类DTV系统虽然各有不同，但也有公共的特性，MPEG-2视频和音频编码系统是所有DTV系统的基础。系统采用MPEG-2将数据压缩并组装成分组，称为净荷。对净荷采用Reed-Solomon前向纠错编码，降低信号传输中引入的误码。卫星系统采用单载波信号，采用外部编码的同时，内部加入了打孔卷积编码，从而又增加了一层误码纠错能力，根据带宽的变化和采用的特定设备，编码数据是可调整的，信号采用QPSK方式调制。陆基系统联合使用码正交频分复用 COFDM或者QPSK或QAM进行射频调制，采用了和卫星系统相似的打孔卷积编码。有线系统采用了QAM调制方案，不需要附加的内部编码来降低误码，系统优化采用64-QAM。b. DTV系统传输结构DTV系统广播和接收的基本结构由三个子系统构成：(1)信源编码和压缩子系统，通过ADC接受模拟视频和音频信号并将其转换成数字比特流，然后通过MPEG-2进行压缩，并加入控制和辅助数据；(2)服务复用和传递子系统，复用将视频和音频及辅助数据流联合构成长188字节的分组，并加上标记，分组构成单个数据流，采用MPEG-2传递系统语法控制这些复用任务；(3)传输子系统，包括对复用数据流的信道编码和调制。2 宽带视频通信这里讨论的宽带视频通信主要是指基于宽带核心网络和宽带接入技术的MPEG-2视频通信。为了满足实时视频通信对带宽的需求，核心网络通常采用宽带光纤网络，可以是ATM或者基于MPLS的宽带IP与ATM的结合，最后一公里的宽带接入的方法有光纤到户、光纤到楼双绞线到户及ADSL，最近也提出了宽带无线接入技术。通常，来自多个链路的数据业务在数字用户线路接入复用器(DSLAM)汇总。DSLAM将ATM业务路由到家中的ADSL接收器单元，同时，滤掉低频段的旧电话业务POTS 。在MPEG-2视频的情形下，ATM边界设备减轻信元的时延抖动的能力至关重要。ATM必须应付数据传输的需要并提供管理每个视频流的功能，特别要满足按序提取视频分组的要求。为了补偿网络传输延时，ATM网络边界设备必须精心设计以处理MPEG交换和抖动管理。本地MPEG-2视频流通过数字视频广播异步串行接口传输。ATM边界设备将MPEG-2多节目传输流(MPTS)或单节目传输流(SPTS)拆解到节目层并最终到分组标记(PID)层。在PID层，不同的节目流可以重新排序并复用进另外的MPTS。在ATM边界接收端，另外的边界设备管理ATM信元流，并重构SPTS或MPTS。本地的服务分布网络负责在本地的UTP网络分发视频内容。功能强大的MPEG-2压缩算法结合智能的ATM边界设备允许最后接入利用DSL技术作为视频分发的接入机制。（未完待续）相关信息：1.前言数字视频产品需求近些年出现猛增。主流应用包括视频通信、安全监控与工业自动化，而最热门的要算娱乐应用，如 DVD、HDTV、卫星电视、高清 (HD) 机顶盒、因特网视频流、数码相机与 HD 摄像机、视频光盘库 (video jukebox)、高端显示器（LCD、等离子显示器、DLP）以及个人摄像机等。众多精彩的新应用目前也处于设计或前期部署中，例如针对家庭与手持设备及地面／卫星标准（DVB-T、DVB-H、DMB）的高清 DVD（蓝光／HD-DVD）和数字视频广播、高清视频电话、数码相机以及 IP 机顶盒。由于手持终端计算能力的提高以及电池技术与高速无线连接的发展，最终产品的移动性与集成性也在不断提高。视频压缩是所有令人振奋的、新型视频产品的重要动力。压缩－解压（编解码）算法可以实现数字视频的存储与传输。典型的编解码器要么采用行业标准，如 MPEG2、MPEG4、与 AVS，要么采用专有算法，如 On2、Real Video、Nancy与Windows Media Video (WMV) 等。WMV 是个例外——它最初是微软公司的专有算法，而现在则以 VC-1 的新名称在业界实现了标准化。编解码技术在过去十年中不断改进。最新的编解码技术（与 VC-1）代表着第三代视频压缩技术。这两种编解码技术利用如可编程 DSP 与ASIC 等低成本 IC 的处理能力，都能够达到极高的压缩比。不过，为具体应用选择正确的编解码器并优化其实时处理仍然是一项巨大的挑战。最佳的设计必须权衡压缩效率及可用的计算能力。此外，如何在计算能力有限的情况下获得最佳压缩效率也是一门大学问。在本文中，我们首先概述视频编码的主要概念，同时介绍传统压缩标准。然后我们重点介绍其中包括、WMV9/VC-1与AVS 等在内的最新编解码技术的功能，此外，还将深入探讨压缩能力与复杂性之间的权衡。最后，讨论市场中可能会影响主流视频编解码器未来的实时处理与主要趋势。数字视频的主要挑战在于原始或未压缩的视频需要存储或传输大量数据。例如，标准清晰度的 NTSC 视频的数字化一般是每秒 30 帧速率，采用 4:2:2 YcrCb 及 720(480，其要求超过 165Mbps 的数据速率。保存 90 分钟的视频需要 110GB 空间，或者说超过标准 DVD-R 存储容量的 25 倍。即使是视频流应用中常用的低分辨率视频（如：CIF：352x288 4:2:0、30 帧/秒）也需要超过的数据速率，这是 ADSL 或 3G 无线等宽带网络速度的许多倍。目前的宽带网可提供 1～10Mbps 的持续传输能力。显然数字视频的存储或传输需要采用压缩技术。视频压缩的目的是对数字视频进行编码——在保持视频质量的同时占用尽可能少的空间。编解码技术理论依据为信息理论的数学原理。不过，开发实用的编解码技术需要艺术性的精心考虑。3. 压缩权衡在选择数字视频系统的编解码技术时需要考虑诸多因素。主要因素包括应用的视频质量要求、传输通道或存储介质所处的环境（速度、时延、错误特征）以及源内容的格式。同样重要的还有预期分辨率、目标比特率、色彩深度、每秒帧数以及内容和显示是逐行扫描还是隔行扫描。压缩通常需要在应用的视频质量要求与其他需求之间做出取舍。首先，用途是存储还是单播、多播、双向通信或广播？对于存储应用，到底有多少可用的存储容量以及存储时间需要多久？对于存储之外的应用，最高比特率是多少？对于双向视频通信，时延容差或容许的端到端系统延迟是多少？如果不是双向通信，内容需要在脱机状态提前完成编码还是需要实时编码？网络或存储介质的容错能力如何？根据基本目标应用，不同压缩标准以不同方式处理这些问题的权衡。另一方面是需要权衡编解码实时处理的成本。如或 WMV9/VC-1等能够实现较高压缩比的新算法需要更高的处理能力，这会影响编解码器件的成本、系统功耗以及系统内存。4. 标准化机构在视频编解码技术定义方面有两大标准机构。国际电信联盟 (ITU) 致力于电信应用，已经开发了用于低比特率视频电话的标准，其中包括、、与；国际标准化组织 (ISO) 主要针对消费类应用，已经针对运动图像压缩定义了 MPEG 标准。MPEG 标准包括 MPEG1、MPEG2 与 MPEG4。图 1 说明了视频编解码标准的发展历程。MPEG 与 ISO 根据基本目标应用往往做出稍有不同的取舍。有时它们也会开展合作，如：联合视频小组 (JVT)，该小组定义了编解码技术，这种技术在 MPEG 系列中又被称为 MPEG4-Part 10 或 MPEG4 高级视频编解码 (AVC)。我们在本文中将这种联合标准称为。同样，对应 MPEG2，而基本规范类 (Baseline Profile) 技术在原理方面与 MPEG4 简单类 (Simple Profile) 编解码技术存在较多重复。标准对编解码技术的普及至关重要。出于规模经济原因，用户根据可承受的标准寻找相应产品。由于能够保障厂商之间的互操作性，业界乐意在标准方面进行投资。而由于自己的内容可以获得较长的生命周期及广泛的需求，内容提供商也对标准青睐有加。尽管几乎所有视频标准都是针对少数特定应用的，但是在能够适用的情况下，它们在其他应用中也能发挥优势。图1：ITU 与 MPEG 标准的发展历程 [10]为了实现更好的压缩及获得新的市场机遇，ITU 与 MPEG 一直在不断发展压缩技术和开发新标准。中国最近开发了一种称为 AVS 的国家视频编码标准，我们在后面也会做一介绍。目前正在开发的标准包括 ITU/MPEG 联合可扩展视频编码 (Joint Scalable Video Coding)（对 H264/ AVC 的修订）和MPEG 多视角视频编码 (Multi-view Video Coding)。另外，为了满足新的应用需求，现有标准也在不断发展。例如，最近定义了一种称为高精度拓展 (Fidelity Range Extensions) 的新模式，以满足新的市场需求，如专业数字编辑、HD-DVD 与无损编码等。除了 ITU 与 ISO 开发的行业标准以外，还出现了几种专用于因特网流媒体应用、广受欢迎的专有解决方案，其中包括 Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy。由于这些格式在内容中得到了广泛应用，因此专有编解码技术可以成为业界标准。2003 年 9 月，微软公司向电影与电视工程师学会 (SMPTE) 提议在该机构的支持下实现 WMV9 位流与语法的标准化。该提议得到了采纳，现在 WMV9 已经被 SMPTE 作为 VC-1 实现标准化。5. 视频编码原理我们感兴趣的所有视频标准都采用基于模块的处理方式。每个宏模块一般包含 4 个 8(8 的光度块和 2 个 8(8 的色度块（4:2:0 色度格式）。视频编码基于运动补偿预测（MC），变换与量化及熵编码。图 2 说明的是一种典型的、基于运动补偿的视频编解码技术。在运动补偿中，通过预测与最新编码的（"参考"）视频帧处于同一区域的视频帧中各宏模块的像素来实现压缩。例如，背景区域通常在各帧之间保持不变，因此不需要在每个帧中重新传输。运动估计 (ME) 是确定当前帧——即与它最相似的参考帧的 16(16 区域中每个 MB 的过程。ME 通常是视频压缩中最消耗性能的功能。有关当前帧中各模块最相似区域相对位置的信息（"运动矢量"）被发送至解码器。MC 之后的残差部分分为 8(8 的模块，各模块综合利用变换编码、量化编码与可变长度编码技术进行编码。变换编码（如：离散余弦变换或 DCT）利用残差信号中的空间冗余。量化编码可以消除感知冗余 (perceptual redundancy) 并且降低编码残差信号所需要的数据量。可变长度编码利用残差系数的统计性质。通过 MC 进行的冗余消除过程在解码器中以相反过程进行，来自参考帧的预测数据与编码后的残差数据结合在一起产生对原始视频帧的再现。图 2：标准运动补偿视频编码在视频编解码器中，单个帧可以采用三个模式中的一个进行编码 —— 即 I、P 或 B 帧模式（见图 3）。几个称为 Intra (I) 的帧单独编码，无需参考任何其他帧（无运动补偿）。某些帧可以利用 MC 编码，以前一个帧为参考（前向预测）。这些帧称为预测帧 (P)。B 帧或双向预测帧通过之前的帧以及当前帧的后续帧进行预测。B 帧的优势是能够匹配堵塞在采用前向预测的上一帧中的背景区域。双向预测通过平衡前向及后向预测可以降低噪声。在编码器中采用这种功能会要求更多处理量，因为必须同时针对前向及后向预测执行 ME，而这会明显使运动估计计算需求加倍。为了保存两个参考帧，编码器与解码器都需要更多内存。B 帧工具需要更复杂的数据流，因为相对采集及显示顺序而言，帧不按顺序解码。这个特点会增加时延，因此不适合实时性较高的应用。B 帧不用于预测，因此可以针对某些应用进行取舍。例如，在低帧速应用中可以跳过它们而不会影响随后 I 与 P 帧的解码。图3：I、P 与 B 帧间预测图示6. 传统视频编码标准编制的 [2] 标准是第一个主流视频压缩标准。它主要针对双工视频会议应用，是为支持 40kpbs～2Mbps 的 ISDN 网络而设计的。支持 352(288 (CIF) 及 176(144 (QCIF) 分辨率，色度分辨率二次采样为 4:2:0。由于可视电话需要同步实时编解码，因此复杂性设计得较低。由于主要用于对延迟敏感的双向视频，因此仅允许采用 I 与 P 帧，而不允许 B 帧。采用基于块的 DCT 进行残差信号的变换编码。DCT 把像素的每个 8(8 块映射到频域，产生 64 个频率成分（第一个系数称为 DC，其他的称为 AC）。为了量化 DCT 系数，在所有 AC 系数中采用固定的线性量化。量化后的系数进行行程编码，其可以按非零系数描述量化的频率，后面跟随一串零系数，在最后一个非零值之后以块代码结束。最后，可变长度编码 (Huffman) 将运行级别对 (run-level pair) 转换成可变长度编码 (VLC)，其比特长度已针对典型概率分布进行过优化。基于标准块的编码最终产生模块化视频。标准利用环路滤波避免这种现象。在模块边缘采用的简单 2D FIR 滤波器用于平滑参考帧中的量化效应。必须同时在编码器及解码器中精确地对每个比特应用上述滤波。MPEG-1MPEG-1[3] 是 ISO 开发的第一个视频压缩算法。主要应用是数字媒体上动态图像与音频的存储与检索，如速率为、采用 SIF 分辨率（352(240 - 或者 352(288 - 25 fps）的VCD。MPEG-1 与相似，不过编码器一般需要更高的性能，以便支持电影内容的较高运动性而不是典型的可视电话功能。与相比，MPEG1 允许采用 B 帧。另外它还采用自适应感知量化，也就是说，对每个频段采用单独的量化比例因子（或等步长），以便优化人们的视觉感受。MPEG-1 仅支持逐行视频，因此新标准——MPEG2 已经开始做出努力，同时支持分辨率及比特率更高的逐行与隔行视频。MPEG-2/[4] 专门针对数字电视而开发，很快成为了迄今最成功的视频压缩标准。MPEG-2 既能够满足标准逐行视频的需求（其中视频序列由一系列按一定时间间隔采集的帧构成），又能够满足电视领域常用的隔行视频的需求。隔行视频交替采集及显示图像中两组交替的像素（每组称为一个场）。这种方式尤其适合电视显示器的物理特性。MPEG2 支持标准的电视分辨率，其中包括：针对美国和日本采用的 NTSC 制式隔行 720(480 分辨率，每秒 60 场，以及欧洲和其他国家采用的PAL 制式的 720(576 分辨率，每秒 50 场。MPEG-2 建立在 MPEG-1 基础之上，并具备扩展功能，能支持隔行视频及更宽的运动补偿范围。由于高分辨率视频是非常重要的应用，因此 MPEG-2 支持的搜索范围远远大于 MPEG-1。与之前的标准相比，它显著提高了运动估计的性能要求，并充分利用更宽搜索范围与更高分辨率优势的编码器需要比和 MPEG-1 高得多的处理能力。MPEG2 中的隔行编码工具包含优化运动补偿的能力，同时支持基于场和基于帧的预测，而且同时支持基于场和基于帧的 DCT/IDCT。MPEG-2 在 30:1 左右的压缩比时运行良好。MPEG-2 在 4-8Mbps 时达到的质量适合消费类视频应用，因此它很快在许多应用中得到普及，如：数字卫星电视、数字有线电视、DVD 以及后来的高清电视等。另外，MPEG-2 增加了分级视频编码工具，以支持多层视频编码，即：时域分级、空域分级、SNR 分级以及数据分割。尽管 MPEG-2 中针对分级视频应用定义了相关类别 (profile)，不过支持单层编码的主类 (Main Profile) 是当今大众市场中得到广泛应用的唯一 MPEG-2 类。MPEG-2 通常称为 MPEG-2 主类。MPEG-2 解码最初对于通用处理器及 DSP 具有很高的处理要求。优化的固定功能 MPEG-2 解码器开发已问世，由于使用量较高，成本已逐渐降低。MPEG2 证明低成本芯片解决方案的供应是视频编解码标准成功和普及的关键。[5] 在之后得到开发，主要是为了以更低的比特率实现更高的质量。其主要目标之一是基于普通电话调制解调器的视频。目标分辨率是 SQCIF (128(96)～CIF (352(288)。其基本原理与大同小异。的运动矢量在两个方向上允许是 1/2 的倍数（“半像素”），参考图像以数字方式内插到更高的分辨率。这种方法可以提高 MC 精度及压缩比。MV 可采用更大的范围。为不同方案提供许多新的选项，包括：* 4 个运动矢量——每个块采用一个运动矢量，而非整个 MB 采用单个运动矢量。* 3D VLC：Huffman 编码——将块结束 (EOB) 指示符与每个运行级别对结合在一起。这种功能主要用于低比特率，这时大多时候只有一、两个编码系数。尽管存在这些功能，但是仍然很难在普通电话线上实现理想的视频质量，而且目前基于标准调制解调器的可视电话仍然是一个难题。不过，由于一般情况下可提供优于的效率，它成为了电视会议首选的算法，但是，为了兼容旧系统，仍然需要支持。逐渐发展成为了，其增加了可选的附件，为提高压缩并实现分组网的鲁棒性提供支持。及其附件构成了 MPEG-4 中许多编码工具的核心。MPEG-4MPEG-4[6] 由 ISO 提出，以延续 MPEG-2 的成功。一些早期的目标包括：提高容错能力以支持无线网、对低比特率应用进行更好的支持、实现各种新工具以支持图形对象及视频之间的融合。大部分图形功能并未在产品中受到重视，相关实施主要集中在改善低比特率压缩及提高容错性上。.MPEG-4 简化类 (SP) 以为基础，为改善压缩增加了新的工具，包括：* 无限制的运动矢量：支持对象部分超出帧边界时的预测。* 可变块大小运动补偿：可以在 16(16 或 8(8 粒度下进行运动补偿。* 上下文自适应帧内 DCT DC/AC 预测：可以通过当前块的左右相邻块预测 DC/AC DCT 系数。* 扩展量化 AC 系数的动态范围，支持高清视频：从的 [-127:127] 到 [-2047, 2047]。增加了容错功能，以支持丢包情况下的恢复，包括：* 片断重同步 (Slice Resynchronization)：在图像内建立片断 (slice)，以便在出现错误后更快速的进行重新同步。与 MPEG-2 数据包大小不同，MPEG4 数据包大小与用于描述 MB 的比特数量脱离了联系。因此，不管每个 MB 的信息量多少，都可以在位流中按相同间隔进行重新同步。* 数据分割：这种模式允许利用唯一的运动边界标记将视频数据包中的数据分割成运动部分和 DCT 数据部分。这样就可以实现对运动矢量数据更严格的检查。如果出现错误，我们可以更清楚地了解错误之处，从而避免在发现错误情况下抛弃所有运动数据。* 可逆 VLC：VLC 编码表允许后向及前向解码。在遇到错误时，可以在下一个slice进行同步，或者开始编码并且返回到出现错误之处。* 新预测 (NEWPRED)：主要用于在实时应用中实现快速错误恢复，这些应用中的解码器在出现丢包情况下采用逆向通道向解码器请求补充信息。MPEG-4 高级简化类 (ASP) 以简化类为基础，增加了与 MPEG-2 类似的 B 帧及隔行工具（用于Level 4 及以上级别）。另外它还增加了四分之一像素运动补偿及用于全局运动补偿的选项。MPEG-4 高级简化类比简化类的处理性能要求更高，而且复杂性与编码效率都高于 MPEG-2。MPEG-4 最初用于因特网数据流，例如，已经被 Apple 的 QuickTime 播放器采用。MPEG-4 简化类目前在移动数据流中得到广泛应用。MPEG-4 ASP 是已经流行的专有 DivX 编解码器的基石。工具与压缩增益当我们查看、MPEG1、MPEG2 与视频编解码技术中引入的功能时，明显可以发现几种基本技巧提供了大部分压缩增益。图 4 说明这些技巧及其相关效果。与 4 个运动矢量以及四分之一像素运动补偿等工具相比，运动补偿（整数像素与半像素）的效果显然更为突出。图 4：基本技巧的效果：1) 无 MC；2) 增加 Skip 模式构成 CR 编码器；3) 仅允许零 MV；4) 允许整数像素 MC；5) 允许半像素 MC；6) 允许 4-MV；7) 允许四分之一像素MC。如欲了解有关详细说明，敬请参见 [7]。7. MPEG4-AVC视频编码技术在过去几年最重要的发展之一是由 ITU 和 ISO/IEC 的联合视频小组 (JVT) 开发了 AVC[8] 标准。在发展过程中，业界为这种新标准取了许多不同的名称。ITU 在 1997 年开始利用重要的新编码工具处理（长期），结果令人鼓舞，于是 ISO 决定联手 ITU 组建 JVT 并采用一个通用的标准。因此，大家有时会听到有人将这项标准称为 JVT，尽管它并非正式名称。ITU 在 2003 年 5 月批准了新的标准。ISO 在 2003 年 10 月以 MPEG-4 Part 10、高级视频编码或 AVC 的名称批准了该标准。在压缩效率方面取得了巨大突破，一般情况下达到 MPEG-2 及 MPEG-4 简化类压缩效率的大约 2 倍。在 JVT 进行的正式测试中 [9]，在 85 个测试案例中有 78％的案例实现倍以上的编码效率提高，77％的案例中达到 2 倍以上，部分案例甚至高达 4 倍。实现的改进创造了新的市场机遇，如：* 600Kbps 的 VHS 品质视频。可以通过 ADSL 线路实现视频点播。* 高清晰电影无需新的激光头即可适应普通 DVD。标准化时支持三个类别：基本类、主类及扩展类。后来一项称为高保真范围扩展 (FRExt) 的修订引入了称为高级类的 4 个附加类。在初期主要是基本类和主类引起了大家的兴趣。基本类降低了计算及系统内存需求，而且针对低时延进行了优化。由于 B 帧的内在时延以及 CABAC 的计算复杂性，因此它不包括这两者。基本类非常适合可视电话应用以及其他需要低成本实时编码的应用。主类提供的压缩效率最高，但其要求的处理能力也比基本类高许多，因此使其难以用于低成本实时编码和低时延应用。广播与内容存储应用对主类最感兴趣，它们是为了尽可能以最低的比特率获得最高的视频质量。尽管采用与旧标准相同的主要编码功能，不过它还具有许多与旧标准不同的新功能，它们一起实现了编码效率的提高。图 5 的编码器框图总结了其主要差别，概述如下：帧内预测与编码：采用空域帧内预测技术来预测相邻块邻近像素的 Intra-MB 中的像素。它对预测残差信号和预测模式进行编码，而不是编码块中的实际像素。这样可以显著提高帧内编码效率。帧间预测与编码：中的帧间编码采用了旧标准的主要功能，同时也增加了灵活性及可操作性，包括适用于多种功能的几种块大小选项，如：运动补偿、四分之一像素运动补偿、多参考帧、通用 (generalized) 双向预测和自适应环路去块。可变矢量块大小：允许采用不同块大小执行运动补偿。可以为小至 4(4 的块传输单个运动矢量，因此在双向预测情况下可以为单个 MB 传输多达 32 个运动矢量。另外还支持 16(8、8(16、8(8、8(4 和 4(8 的块大小。降低块大小可以提高运动细节的处理能力，因而提高主观质量感受，包括消除较大的块化失真。四分之一像素运动估计：通过允许半像素和四分之一像素运动矢量分辨率可以改善运动补偿。多参考帧预测：16 个不同的参考帧可以用于帧间编码，从而可以改善视频质量的主观感受并提高编码效率。提供多个参考帧还有助于提高位流的容错能力。值得注意的是，这种特性会增加编码器与解码器的内存需求，因为必须在内存中保存多个参考帧。自适应环路去块滤波器：采用一种自适应解块滤波器，它会在预测回路内

论文题目是：数字电视接收机的视频压缩技术帮写内容：（1）选题依据及研究意义；（2）选题研究现状；（3）研究内容（包括基本思路、框架、主要研究方式、方法等）一共是三点，请大家教一下我这三点该怎么写？！注明：论文我已经写好了：下面是论文提纲(含论文选题、论文主体框架) 论文选题：数字电视接收机的视频压缩技术第一章：绪论一、数字电视的发展及视频压缩的必要性；二、视频图象数字压缩的客观依据；三、数字电视与接收机（机顶盒）；四、电视信号模数转换标准；第二章:数字电视机顶盒技术一、什么是数字电视机顶盒；二、数字电视机顶盒的基本原理；三、数字电视机顶盒的结构；四、数字电视机顶盒的主要技术；第三章：视频压缩编码技术一空间或时间性编码；二. 加权；三. 遍历(Scannng)；四. 熵编码；五. 空间性编码器；六. 时间性编码；七. 运动补偿；八. 双向编码；九. I、P 和B 画面；十. MPEG 压缩器；十一. 预处理；十二. 类和级；十三. 小波；第四章：视频图象压缩标准一、H．261标准；二、JPEG标准；三、MPEG-1压缩编码标准；四、MPEG-2压缩编码标准；五、MPEG-4压缩编码标准；结束语；参考文献；问题补充：题目是学校帮我选择的！大家可以帮忙把这三点写一下吗？我真不知道该怎么写！或者大家帮我写前两点也好了~ 谢谢帮我忙的所有朋友！拜托各位了！我开题16号就要交了看看这个能不能帮您！一、如何选择问题我一起萦绕于怀的，是在写博士论文开题报告的一年多时间里，导师薛澜教授反复追问的一个问题：“你的 puzzle 是什么？”多少次我不假思索地回答“我的问题就是，中国的半导体产业为什么发展不起来。”薛老师问题以其特有的储蓄，笑而不答。我在心中既恼火又懊丧：这么简单的道理，这么明显的答案，到底哪儿不对了？！奥妙就在于提出问题的“层次”。不同于政策研究报告，学术文章聚集理论层面、解决理论问题。理论是由一系列前设和术语构造的逻辑体系。特定领域的理论有其特定的概念、范畴和研究范式。只有在相同的概念、视角和范式下，理论才能够对话；只有通过对话，理论才能够发展。极少有硕博论文是创造新理论的，能这样当然最好，但难度很大。我们多数是在既有理论的基础上加以发展，因此，在提出问题时，要以“内行”看得懂的术语和明确的逻辑来表述。审视我最初提出的问题“中国半导体产业为什么发展不起来”，这仅仅是对现象的探询，而非有待求证的理论命题。我的理论命题是：“中国产业政策过程是精英主导的共识过程吗？”在这个命题中，“政策过程”、“精英政治”、“共识诉求”三个术语勾勒出研究的理论大体范围和视角。其次，选择问题是一个“剥笋”的过程。理论问题总是深深地隐藏在纷繁复杂的现实背后，而发现理论问题，则需要运用理论思维的能力。理论思维的训练是一个长期积累的过程。不过初学者也不必望而却步，大体上可以分“三步走”：第一步，先划定一个“兴趣范围”，如半导体产业、信息产业、农村医疗、高等教育体制等，广泛浏览相关的媒体报道、政府文献和学术文章，找到其中的“症结”或“热点”。第二步，总结以往的研究者大体从哪些理论视角来分析“症结”或“热点”、运用了哪些理论工具，如公共财政的视角、社会冲突范式等。第三步，考察问题的可研究性，也就是我们自己的研究空间和研究的可行性。例如，西方的理论是否无法解释中国的问题？或者同一个问题能否用不同的理论来解释？或者理论本身的前提假设、逻辑推演是否存在缺陷？通过回答这些问题，我们找到自己研究的立足点。不过还要注意我们研究在规定的一到两年时间内，是否可能完成？资料获取是否可行？等等。最后，如何陈述问题？陈述问题实质上就是凝练核心观点的过程。观点应当来自对现实问题的思考和总结，而不是为了套理论而“削足适履”。中国的政治、经济和社会发展充满动态的、丰富的景象，如何才能用恰当的术语、准确的逻辑表述出来呢？雄心勃勃的初学者往往提出宏伟的概念或框架，但我的建议是尽可能缩小研究范围、明确研究对象，从而理清对象的内存逻辑，保证能在有限的时间内完成规范的学术论文。如“中国半导体产业政策研究”就是一个非常含糊的陈述，我们可以从几个方面来收缩话题：（ 1 ）时间：从 1980 年到 2000 年；（ 2 ）对象：政府的叛乱者和决策行为，而不是市场、企业、治理结构等；（ 3 ）视角：政治和政府理论中的精英研究；（ 4 ）案例： 908 工程、 909 工程、 13 号文件和《电子振兴》，这是发生在 1980 － 2000 年间半导体政策领域的两个重大工程和两个重要文件。通过这样的明确界定，我们将目光集中在“政策过程”、“精英”、“共识”几个显而易见的概念上，问题也就水落石出了。同时，问题清楚了，我们在筛选信息和资料时也就有了明确的标准，在这个“信息冗余”的时代，能够大大提高研究效率。二、如何做文献综述首先需要将“文献综述（ Literature Review) ”与“背景描述 (Backupground Description) ”区分开来。我们在选择研究问题的时候，需要了解该问题产生的背景和来龙去脉，如“中国半导体产业的发展历程”、“国外政府发展半导体产业的政策和问题”等等，这些内容属于“背景描述”，关注的是现实层面的问题，严格讲不是“文献综述”，关注的是现实层面问题，严格讲不是“文献综述”。“文献综述”是对学术观点和理论方法的整理。其次，文献综述是评论性的（ Review 就是“评论”的意思），因此要带着作者本人批判的眼光 (critical thinking) 来归纳和评论文献，而不仅仅是相关领域学术研究的“堆砌”。评论的主线，要按照问题展开，也就是说，别的学者是如何看待和解决你提出的问题的，他们的方法和理论是否有什么缺陷？要是别的学者已经很完美地解决了你提出的问题，那就没有重复研究的必要了。清楚了文献综述的意涵，现来说说怎么做文献综述。虽说，尽可能广泛地收集资料是负责任的研究态度，但如果缺乏标准，就极易将人引入文献的泥沼。技巧一：瞄准主流。主流文献，如该领域的核心期刊、经典著作、专职部门的研究报告、重要化合物的观点和论述等，是做文献综述的“必修课”。而多数大众媒体上的相关报道或言论，虽然多少有点价值，但时间精力所限，可以从简。怎样摸清该领域的主流呢？建议从以下几条途径入手：一是图书馆的中外学术期刊，找到一两篇“经典”的文章后“顺藤摸瓜”，留意它们的参考文献。质量较高的学术文章，通常是不会忽略该领域的主流、经典文献的。二是利用学校图书馆的“中国期刊网”、“外文期刊数据库检索”和外文过刊阅览室，能够查到一些较为早期的经典文献。三是国家图书馆，有些上世纪七八十年代甚至更早出版的社科图书，学校图书馆往往没有收藏，但是国图却是一本不少（国内出版的所有图书都要送缴国家图书馆），不仅如此，国图还收藏了很多研究中国政治和政府的外文书籍，从互联网上可以轻松查询到。技巧二：随时整理，如对文献进行分类，记录文献信息和藏书地点。做博士论文的时间很长，有的文献看过了当时不一定有用，事后想起来却找不着了，所以有时记录是很有必要的。罗仆人就积累有一份研究中国政策过程的书单，还特别记录了图书分类号码和藏书地点。同时，对于特别重要的文献，不妨做一个读书笔记，摘录其中的重要观点和论述。这样一步一个脚印，到真正开始写论文时就积累了大量“干货”，可以随时享用。技巧三：要按照问题来组织文献综述。看过一些文献以后，我们有很强烈的愿望要把自己看到的东西都陈述出来，像“竹筒倒豆子”一样，洋洋洒洒，蔚为壮观。仿佛一定要向读者证明自己劳苦功高。我写过十多万字的文献综述，后来发觉真正有意义的不过数千字。文献综述就像是在文献的丛林中开辟道路，这条道路本来就是要指向我们所要解决的问题，当然是直线距离最短、最省事，但是一路上风景颇多，迷恋风景的人便往往绕行于迤逦的丛林中，反面“乱花渐欲迷人眼”，“曲径通幽”不知所终了。因此，在做文献综述时，头脑时刻要清醒：我要解决什么问题，人家是怎么解决问题的，说的有没有道理，就行了。三、如何撰写开题报告问题清楚了，文献综述也做过了，开题报告便呼之欲出。事实也是如此，一个清晰的问题，往往已经隐含着论文的基本结论；对现有文献的缺点的评论，也基本暗含着改进的方向。开题报告就是要把这些暗含的结论、论证结论的逻辑推理，清楚地展现出来。写开题报告的目的，是要请老师和专家帮我们判断一下：这个问题有没有研究价值、这个研究方法有没有可能奏效、这个论证逻辑有没有明显缺陷。因此，开题报告的主要内容，就要按照“研究目的和意义”、“文献综述和理论空间”、“基本论点和研究方法”、“资料收集方法和工作步骤”这样几个方面展开。其中，“基本论点和研究方法”是重点，许多人往往花费大量笔墨铺陈文献综述，但一谈到自己的研究方法时但寥寥数语、一掠而过。这样的话，评审老师怎么能判断出你的研究前景呢？又怎么能对你的研究方法给予切实的指导和建议呢？对于不同的选题，研究方法有很大的差异。一个严谨规范的学术研究，必须以严谨规范的方法为支撑。在博士生课程的日常教学中，有些老师致力于传授研究方法；有的则突出讨论方法论的问题。这都有利于我们每一个人提高自己对研究方法的认识、理解、选择与应用，并具体实施于自己的论文工作中。

动画论文的参考文献

你知道动画论文有哪些参考文献吗?参考文献的格式又是怎么写的?下面是我为大家收集的关于动画论文的参考文献，欢迎大家阅读!

[1]侯易.面向紧急疏散的群体仿真技术研究[D].浙江大学.2008

[2]闫苑.浅析超级市场的安全疏散[J].安防科技.2003,(10)：13-16

[3]侯易.面向紧急疏散的群体仿真技术研究[D].浙江大学.2008

[4]孙剑，李克平.行人运动建模及仿真研究综述[J].计算机仿真.2008,25(12)：12-16

[5]郭鹤.动态仿真建模环境研究[J].新疆教育学院学报.2007,23(2)：127-129

[6]阎高伟，李闯勤，石兵.基于社会力模型的群体优化算法[J].控制工程.2012,19(6)： 1238-1243

[7]冯康.认知科学的发展及研究方向[J].计算机工程与科学.2014,36(5)：906-916

[8]李红松，李靖，陈少柯，张智鹏，丁刚毅.一个用于非自治人群仿真的交互式人群编辑系统[C].第五届智能CAD与数字娱乐学术会议.大连.2008

[9]郭瑞林，赵克勤.同异联系度不确定势的演变及其势差与势能[C].中国人工智能学会第10届全国学术年会.广州.2003

[10]李海燕，冯春，张怡.基于FCM的灾难救援团队中快速信任的推理分析[J].工业工程.2012,15(6)： 132-138

[1] 施捷鹏.世上“怪兽”知多少?[J].黄金时代(学生族)， 2007(5)47-49

[2] 孙立军，马华.美国迪斯尼动画研究[M].北京：京华出版社，2015: 183-187

[3] 维·李明.欧洲传统神话的发展史[J] .中国图书评论，2010(06)21

[4] 刘法民.怪诞的美学研究与兴起[J].哲学动态，2006(11)57-58

[5] 董强.逸趣横生的日本妖怪文化[J].百科知识，2011(18)57-59

[6] 叶春生.日本妖怪学[J].民俗研究，2004(1)155-157

[7] 鸟山石燕.图解百魅夜行[M].西安：陕西师范大学出版社，2008: 24-38

[8] 维克多·雨果.《克伦威尔》序言[M].柳鸣九.上海：上海译文出版社，2011: 50-78

[9] 阿兰·邓迪斯.美国的民俗感念[M].卢晓辉.桂林：广西大学出版社，2005: 118-121

[10] 颜文娟.电影《怪兽大学》的美学观[J].艺术教育，2014(1)133

[11] 金凯.中国传统纹样在动画艺术中的应用研究[J].大众文艺，2013(16)185

[12] 张帆.论民族化特征在三维动画角色造型中的运用[J].电影评价，2012(1)34-35

[13] 邢晋.《魔戒之王》的原型分析[D]:[硕士学位论文].长春：吉林大学文学院，2007

[14] 颜文娟.电影《怪兽大学》的美学观[J].艺术教育，2014(1)133

[15] 邢晋.《魔戒之王》的原型分析[D]:[硕士学位论文].长春：吉林大学文学院，2007

[16] 庞理科，韦凯.解析民族元素在动画原画创作中的应用[J].群文天地，2012(22)60-62

[17] 王罗成.中西文化差异及原因分析[J].青年文学家，2009(15)184

[18] 石川祯浩.晚晴“睡狮”形象探源[J].中山大学学报：社会科学版，2009(5)87-96

[19] 麦克考尔.怪诞艺术美学[G].茶健，武汉：湖北少年儿童出版社出版社，2010: 11-17

[20] 小松和彦.日本文化中的妖怪文化[J].日本研究，2011(4)42-45

[21] 庞理科，韦凯.解析民族元素在动画原画创作中的应用[J].群文天地，2012(22)60-62

[22] 王罗成.中西文化差异及原因分析[J].青年文学家，2009(15)184

[1]王江龙.三维网格模型压缩算法研究[J].西安电子科技大学，2008,1(2).

[2]莫天立.三维多媒体流网格数据压缩技术[D].东北大学，2011.

[3]许敏.三维网格模型压缩技术研宄[D].解放军信息工程大学，2011.

[4]赵向军，路梅，叶澄清.三维网格动画的几何视频压缩方法[J].南京邮电大学学报：自然科学版，2007,27(3)： 54-58.

[5]MAMMOU K. Compression of Static and Dynamic 3D Meshes[J]_ 2008.

[6]Gu X,Gortler S J,Hoppe H. Geometry images[C]//ACM Transactions onGraphics (TOG). ACM, 2002' 21(3)： 355-361.

[7]Collins G, Hilton A. A rigid transform basis for animation compression andlevel of detail[C]//Vision

[1] 祝普文.世界动画史[M].北京：中国摄影出版社，2003,270-285.

[2] 编辑：孙莹.CUET 科技资讯网，网站也需靓装，冲浪者喜好判断时间不超一秒

[3] 孙立军、张宇编着.世界动画艺术史[M].第 1 版.海洋出版社.2007,11-12

[4] 聂欣如着.动画概论[M].复旦大学出版社.2006 年 12 月第 1 版，第 3 页

[5] 安德鲁·J·巴塞维奇.美国的极限：实力的终结与深度危机[M].曹化银，曹爱菊译.北京：中信出版社，2009,24-25[EB/OL].2006-1-18

[6] 胡家祥.审美学[M]. 第 1 版，北京大学出版社，.

[7] 鲁道夫·阿思海姆.艺术与视知觉[M].腾守尧译.成都：四川人民出版社，

[8] 杨春时.艺术符号与解释[M].北京：广播电视出版社，1988,47-58

[9] [加]英格丽·张，你的形象价值百万[M],第 1 版，中信出版社.2011,53.

[10] [英]莫里斯.手势新探[M].南宁：广西民族出版社，

[11] [美]阿恩海姆：视觉思维-----审美直觉心理学[M],四川人民出版社，

[12] 责任编辑：单纬《“主席头”的起源、发展与定型》来源于大公网

[13] 黄玉珊.动画电影探索[M].台湾远流通出版社，1997.

[14] 叶海忠，大众娱乐文化影响下的动漫艺术创作[D].天津：天津大学，2010.

[15] 孙立军、马华.影视动画影片分析[M].北京：中国宇航出版社，2003:25-26

[16] 鲁嵘秘书长，于北京，2006 中国(深圳)国际文化产业发展博览交易会北京新闻发布会上的发言，[EB/OL].2005-8-11

[17] 张斌，何艳.浅析我国动漫产业的现状及其发展的对策思路[J].特区经济，2007,212-214

首页

> 论文发表知识库

视频编码算法研究的论文