浅谈基于内容检索的媒体语义特征分析平台

　摘要:以媒体信息服务的应用需求为牵引,研制开发了支持基于内容检索的媒体语义特征分析平台。该平台重点研究数字媒体语义对象的提取与检索、分类与标注和语义关联分析等关键技术,对平台的实施方案及其涉及到的关键技术进行了详细阐述,并对平台进行了具体实现。
　　
　　关键词:基于内容检索;媒体语义;特征分析;平台
　　　
　　media semantic feature analysis platform supporting content-based retrieval
　　
　　xie yu-xiang1,luan xi-dao 1,2,wu ling-da1,chen dan-wen1,deng li-qiong1
　　(1.college of information system & management, national university of defense technology, changsha 410073, china;2.dept. of information & computing science, changsha university, changsha 410003, china)
　　
　　abstract:on the demand of content-based retrieval, this paper introduced a media semantic feature analysis platform supporting content-based retrieval.it investigated some key techniques, such as digital media semantic object extraction and retrieval,classification and annotation,and semantic association analysis,etc.it also illustrated the implementation scheme about the platform in detail, and then realized the platform.
　　key words:content-based retrieval; media semantic; feature analysis; platform
　　0 引言
　　随着信息技术的发展和应用,图像、音频、视频等数字媒体信息呈现出海量增长的趋势。wwW.133229.coM如何根据用户的应用需求,从海量信息中快速找到用户感兴趣的信息,是目前信息领域迫切需要解决的重要问题之一。解决这类问题的基本方法是:根据用户的应用需求从海量数字媒体信息中提取出相应的媒体特征,并对这些特征进行合理有效的组织和管理,进而根据特征实现对用户感兴趣信息的基于内容检索,其中媒体特征的有效提取和组织是实现基于内容检索的关键问题之一。目前媒体特征的提取和组织,研究较多且相对成熟的是对媒体底层特征(如图像的颜色、形状等)的提取和利用。媒体特征提取和组织的新的研究前沿是,关注媒体的高层特征(如事件、人物、时间、地点等语义信息),通过分析提取媒体语义特征,同时通过建立不同类型媒体之间的语义关联,实现相对快速、高效的基于内容的检索。
　　目前,国外经典的多媒体信息处理系统包括:美国加州大学圣迭戈分校研究开发的信息透镜infoscope项目、ibm艾玛登(almaden)研究中心开发的qbic系统、美国哥伦比亚大学电子工程系和电信研究中心研究的visualseek与webseek、virage公司的vir图像工程系统、excalibur公司的excalibur视觉检索产品、普林斯顿大学研究的caeti iml系统、mit媒体实验室研究的photobook系统、意大利巴勒莫大学研究的jacob系统等。这些系统都具备依据媒体底层物理特征进行基于内容检索的能力[1]。近年来,国内外研究机构对于多媒体信息处理技术的研究已经由底层特征向高层语义转变,研究重心开始集中于多媒体语义对象提取与检索、多媒体数据自动分类与标注、关联分析、组织与表现等方面。
　　卡内基梅隆大学在数字图书馆项目第二阶段informedia-ⅱ[2,3]研究中,将单个视频文件的摘要技术扩展到多个视频文件的摘要及视频数据库信息可视化研究。主要研究能够自动探测和识别特定语义实体和视觉特性的技术,例如:视频中出现的特定人物、特定事件的具体场景镜头等,通过语义实体与视觉特性的分析,能够有效提取并分类信息,更加易于分析和发现有内在联系的个体动作、群组活动与事件。此外,爱尔兰都柏林城市大学开发的fishclar系统[4]也具有重要的影响力,该系统通过对新闻视频进行镜头探测、故事单元分割等处理,结合闭路字幕信息,实现了对新闻视频的管理和检索等应用。
　　国内清华大学、微软亚洲研究院、北京大学、国防科技大学、

　其研究的主要内容是:a)数字媒体的分析处理技术,主要研究数字媒体特征选择、数字媒体特征描述和提取、数字媒体语义提取和标注、数字媒体数据的分类等;b)基于内容的媒体信息关联分析技术,主要研究语义事件和语义对象的关联分析、事件探测与跟踪技术、事件之间的关联分析等;c)基于内容的数字媒体检索技术,主要研究高维数据索引技术、交互式检索技术、基于语义的检索技术等;d)数字媒体数据的组织和表现技术,主要研究数字媒体数据的统一表示模型、数字媒体数据的表现技术。
　　本研究的目标是:以媒体信息服务的应用需求为牵引,着眼于对数字媒体语义特征分析的前沿问题进行探索研究,重点突破数字媒体语义对象提取与检索、分类与标注和语义关联分析等关键技术,提出以数字媒体语义分析为基础的高效的基于内容的检索方法;实现一个以基于内容检索应用为目标的媒体语义特征分析平台,并为军事等领域中的情报综合分析应用提供多媒体信息智能检索和个性化表现等服务的示范应用。
　1 实施方案
　　本研究主要围绕建立支持基于内容检索的数字媒体语义特征分析平台展开研究,带动相关关键技术的研究。支持基于内容检索的数字媒体语义特征分析平台由数字媒体语义特征分析平台、数字媒体信息服务系统以及媒体信息数据库三个部分组成。平台的体系结构如图1所示。其中,数字媒体语义特征分析平台包括媒体语义模型、媒体特征提取、媒体语义提取、媒体分类与标注等模块;数字媒体信息服务系统包括数据组织与表现服务以及智能检索服务两大模块;媒体信息数据库由媒体库、特征库、语义信息库、索引库、模型库等组成。解决的关键技术已经集成在该平台的各个子模块中。
　　
　　1.1 数字媒体信息处理子系统
　　数字媒体信息处理子系统是整个系统的基础,为最终的检索服务和组织与表现服务提供必需的信息。它在数字媒体信息收集工作的基础上完成媒体特征的选择、媒体特征的描述和提取、媒体数据的分类、媒体语义的提取和标注、关联分析等。
　　1)数字媒体底层特征提取与表示根据语义提取和分类的需要,结合相应的领域知识,从各种数字媒体数据中提取多种有效的底层特征,同时通过分析特征之间信息的冗余性来找出更加简洁有效的底层特征,并采用统一的表示方式来进行描述。
　　
　　2)数字媒体语义提取与标注数字媒体语义的提取主要侧重于研究视频中对象语义的提取与标注技术,主要从三个方面来进行研究:
　　a)新闻视频中重要人物的提取与标注。由于在新闻视频中人们往往最关注的是一些重要人物,这里的重要人物主要指那些出现了特写镜头并且有一段讲话的人物,他们的出现往往与一些重要的新闻事件相关联,通过对重要人物的提取与标注能够极大地方便用户最终查询相应的人物和事件[9]。主要通过综合视频的多模态特征来提取出新闻视频中的这些重要人物,并用他们的名字来进行标注。具体来说分为三个步骤,首先通过综合音/视频特征来进行提取重要人物的提取;然后通过语音识别和字幕识别获得候选人名集合;最后通过多种方式来建立人物与人名之间的关联,完成对重要人物的标注。
　　b)场景对象语义提取与标注。场景对象语义往往描述了视频镜头的一些基本的全局信息,是分析和提取其他高层语义的基础。本研究提出了一种基于分块潜在语义的场景分类方法[10]。该方法首先对图像进行均匀分块并使用分块内视觉词汇的出现频率来描述每一个分块;然后利用概率潜在语义分析(plsa)方法从图像的分块集合中发现潜在语义模型;最后利用该模型提取出潜在语义在图像分块中的出现情况来进行场景分类。在13类场景图像上的实验表明,与其他方法相比,该方法并不需要进行大量的手工标注,而且具有更高的分类准确率。
　　c)运动对象的提取与标注。对于视频中运动对象的提取与标注,侧重于监控视频中运动目标的探测、跟踪和识别方法的研究。首先对监控视频采用背景剪除和运动补偿相结合的方法来探测运动对象,通过基于光流的金字塔跟踪算法来实现对运动对象的跟踪,在运动对象探测和跟踪的基础上,通过提取运动对象的特征来分析运动对象的模式、轨迹或者运动特点;最终通过与已有视频数据中相应目标的运动特征来进行匹配,从而识别出运动对象。
　　3)媒体数据分类对于数字媒体数据分类的研究,以视频分类作为最主要的研究内容。首先对各类视频的视频特征(包括镜头编辑特性、运动特性、声音特性、画面的亮度色度特性等)作出概括,分析出各类视频的特征差异,然后根据各类视频的这些特征差异,分别通过视频内容分析静态特征提取、运动特征提取、音频特征提取等方法提取出合适的特征向量,完成对视频内容的描述。在搜集大量视频素材的基础上,研究采用合适的机器学习方法(如svm、hmm等方法)进行训练,从而利用该分类器模型实现对视频数据的分类。对视频中单模态分类结果进行融合,提高视频分类的准确性。
　　4)媒体数据关联分析因为语义对象、语义事件能够为用户提供可以理解的语义信息,所以重点面向如下两方面:
　　a)基于语义对象要素与语义事件的关联分析。研究语义事件与时间、地点、人物等语义对象之间的关联,尤其是语义事件与人物之间的关联,同时在已有基础上对事件与时间、空间的关联进行完善。
　　
　　b)基于语义事件的关联分析。它可以增强对语义事件的深入分析和理解。首先从新闻报道的角度展开事件探测与追踪技术的研究。事件探测旨在发现新的事件并将与某一事件相关的所有新闻报道归入相应的事件簇,所以事件探测本质上是一种特殊的文本聚类技术。事件追踪就是通过监控新闻媒体流以发现与某一已知事件相关的后续新闻报道,这与信息检索领域中基于示例的检索有许多共同之处,只是在事件追踪中往往已知的训练正例非常少,并且与某个事件相关的报道集中出现在特定的时间区间。对于语义事件之间也存在着的相互联系和影响,则通过它们之间关联规则的挖掘和关联关系的分析,对事件进行跟踪和对趋势进行预测,对特定事件可以实现预警。这种关联分析还可以辅助对主题的分析和管理。语义事件的关联分析以故事的文本信息为主要载体展开。通过文本信息中关键词对事件信息支持度的提取,结合时间信息进行事件关联分析。
　　1.2 数字媒体信息服务子系统
　　数字媒体信息服务子系统是与上层应用结合最紧密的系统,也是需求与关键技术进行有机结合的关键,包括如下系统。
　　1)情报表现服务子系统其目的是将信息处理后的结果以可视化的方式表现给用户,为用户提供辅助决策和信息支持等服务。
　　(1)数字媒体数据的组织针对数字媒体数据的特性,提炼出面向数字媒体信息分析服务的基本四维结构模型,在此基础上构造出基于事件、主题、结构化语义的数字媒体数据的关联组织。针对用户提出的个性化定制需求,研究基于媒体描述框架mpeg-7的多媒体情报的集成和同步模型,把超媒体模型和多媒体集成与同步模型(如ocpn)等结合起来,实现数字媒体数据关联节点的跳跃和基于时间线、时间墙、地理信息的动态组织。
　　(2)数字媒体数据的可视化表现研究信息可视化的模型(如主题视图、时空关联图、信息资源与主题的关联程度分布等),针对不同类型的数据选择适合的可视化模型。

(3)数字媒体数据的综合集成服务通过研究数字媒体数据间的趋势和可视化表现方法,提供趋势关联可视化辅助服务。采用文本、图像、视频、音频的分析方法对用户关心的事件和主题进行连续跟踪,基于时间序列的分析方法对事件和主题进行关联挖掘,采用时间序列可视化的方法(如河流模型)将分析得到的结果和趋势按照时间的顺序表现出来。
　　通过研究智能信息叙事性表现模型,为决策者提供可定制的高层信息表现服务。该模型包括文本理解与模板生成模块、媒体融合模块、信息表现模块。文本理解与模板生成模块以自动分词为前提,以信息词典库为基础,以句法和语义分析为核心,以规则和背景知识为约束,对输入的文本进行分词和词性标注;运用句法知识将输入的句子中单词之间的次序,转换成合适的叙事模板。媒体融合模块负责从大量的媒体中智能地找到符合叙事模板条件的合适媒体。信息表现模块负责把媒体融合模块中组织好的媒体以某种关联的方式(或按照语义的关联,或按照时间的关联)以适合的形式表现出来。
　　2)基于内容的智能检索服务子系统其目的是为满足不同用户的不同信息需求,提供交互式的、基于语义的、高效率的检索服务。该子系统需要解决以下问题:
　　a)建立高维数据索引。对于大型数字媒体数据库,为对数据进行高效率的检索,必须对媒体特征和语义等信息建立高效的索引机制。首先分析数据集的整体分布特性,确定数据集中单个个体的本征维数,然后基于该统一的本征维数,用数据个体各自的本征维属性来表达该个体对象,从而达到降维的目的。
　b)设计合理的检索模式。为更好地辅助用户完成检索操作,必须设计适合于语义检索的人机交互界面和检索模式,使其能便于用户以多种方式表达自己的意图。
　　c)基于内容的检索服务。媒体的内容既包括底层特征,又包括高层语义。传统的基于内容检索大多针对基于底层特征,但底层特征往往很难准确地表达用户的检索意图,因此本研究提供一种底层特征与高层语义相结合的检索方法,通过研究用户检索语义的表示与扩展方法,研究多元语义匹配机制,建立高层语义与底层特征之间的关联关系,从而使系统采用的基于语义的检索算法能更接近人的自然语言描述的意图。
　　d)建立相关反馈机制。基于内容的检索是一种模糊检索,系统往往难以准确描述用户的检索要求,需要与用户多次交互反馈、逐步过滤检索结果,逼近检索目标。相关反馈正是解决以上问题的一种有效途径。通过相关反馈,可以让用户评判检索结果的好坏,并返回给系统,系统对反馈结果进行分析处理,相应地调整参数,以提高下次检索的精度。通过一定次数的反馈,检索精度会达到一个令人满意的程度。
　　2 平台实现
　　支持基于内容检索的媒体语义特征分析平台通过visual studio进行了具体实现,其中涉及的核心技术通过vc进行了封装。平台主要提供对图像、视频、文本、音频等媒体数据的语义分析和处理功能。重点完成图像的自动分类,运动对象、人脸、台标等语义对象的标注,以及事件的关联分析等功能。图2显示了利用平台进行图像场景自动分类的过程。图3显示了利用平台进行人物的语义检索。平台所提供的其他功能在这里不再赘述。
　　
　　3 结束语
　　本文介绍了研制开发的支持基于内容检索的媒体语义特征分析平台,研究围绕数字媒体的高层语义特征分析开展,以支持基于内容检索的应用,重点突破各种数字媒体信息的语义对象提取与检索、自动分类与标注和关联分析等关键技术,这些技术都是目前信息技术领域中的研究前沿问题
　　和难点问题,因此本项目的研究成果对我国数字媒体处理与服务技术的发展具有良好的推动作用。它将在很大程度上提高数字媒体收集整理工作的效率,大大简化数字媒体的管理工作;最重要的是能够帮助用户从大量的数字媒体数据中快速获取有价值的信息,节省大量时间、人力和物力,可带来巨大的经济效益和社会效益。
　　参考文献:
　　[1]
　　smeulders wm.content-based image retrieval at the end of the early years[j].ieee trans on pattern analysis and machine intelligence,2000,22(12):1349-1379.
　　
　　[2]christel m g,hauptmann a g.the use and utility of high-level semantic features in video retrieval[c]//proc of international conference on image and video retrieval.berlin:springer,2005:134-144.
　　
　　[3]hauptmann a g.lessons for the future from a decade of informedia video analysis research[c]//proc of international conference on image and video retrieval[s.l.]:springer,2005:1-10.
　　
　　[4]/computer/" target="_blank" title="">计算机工程与应用,2007,43(33):207-210.
　　[10]zeng pu,wu ling-da,wen jun.modeling scenes with two complementary image representations[j].journal of computational information systems,2008(2):1-6.