摘要 对因特网教育资源的检索日益受到关注,而目前基于关键词的检索方法效率不高,特别是对多媒体资源的检索显得相形见绌,人们迫切需要一种对因特网教育资源,尤其是多媒体教育资源更为有效的检索方法。基于内容的检索CBR(Content-BasedRetrieval)应运而生。它的出现将对提高因特网教育资源检索的质量和效率起到积极作用。
关键词 内容;多媒体;检索;因特网;教育资源.
AbsractBecausetherapiddevelopmentoftheInternethasresultedinincreasingamountofeducationalresource,especiallyinmultimediaforms,themethodsofretrievalbasedonkeywordsarenotsatisfying.PeopleneedmoreefficientmethodsofeducationalresourceretrievalintheInternet.Content-BasedRetrieval(CBR)isanefforttohandlethis"educationalresourceexplosion"problem.ThispaperpresentsasurveyofcurrentmethodsofresourceretrievalintheInternet,thenintroducestheapplicationofCBRineducationalresourceretrievalintheInternetanditsgreatvalue.
Keywords:content;multimedia;retrieval;theInternet;educationalresource.
一、目前因特网教育资源检索的局限性
目前对因特网教育资源的检索方法可分为三类:主题目录(subjectdirectory)、搜索引擎(searchengine)、元搜索引擎(metasearchengine)。主题目录由人工收集、编排,虽然检索结果更人性化,但效率低、周期长,无法适应因特网资源庞大、变化快的特点。搜索引擎又分为自动搜索(auto-retrieval)和全文检索(fulltextretrieval)。自动搜索依靠蜘蛛(Spider)、爬虫(Webcrawler)等搜索工具自动完成,效率高、更新快,但Spider不能访问Cookie、JavaScript或Java技术制作的网页,建立包容所有因特网资源的数据库也不现实,且搜索结果往往不切题。全文检索以文本信息为检索对象,建立全文数据库,可以高效检索海量非结构化数据,但不能有效过滤不相关内容。元搜索引擎让用户同时搜索若干数据库和搜索引擎,相对于单一搜索引擎它能查找到更多的资源,但由于必须兼顾不同搜索引擎,采用的是简单直接的搜索策略,反而失去了每个搜索引擎自身的特色。总之,现有一般检索方法均是基于关键词的检索,由于关键词标引工作量大,而标引同用户的检索概念常常不一致,导致查准率和查全率低。目前最好的搜索引擎其全球网页覆盖率还不到五成。虽然因特网这个世界最大的信息资源库为我们提供了极为丰富的教育资源,但现有的检索方法并没有使我们能有效地加以利用,我们常常感?quot;生活在信息的海洋中,却忍受着知识的饥渴。"
未来因特网的发展使这种检索方法的局限性日益凸现。首先,因特网海量数据的产生。因特网每天新添150万个文件,8个月增长1倍,其网页遍及全球300万个服务器,总数将由1997年2月的3.2亿猛增至2002年的80亿。利用现有的检索技术要在这以指数形式不断增长的资源数据库中提取所需如同大海捞针。其次,非结构化数据大量涌现。因特网的资源可分为结构化数据和非结构化数据。结构化数据能用数据或统一的结构加以表示,如数字、符号等。非结构化数据则不能,如图像、声音、视频等。这类数据的特征,如图像中的颜色、纹理,视频中的镜头、场景,声音中的音调、音色等虽可赋予名字、文件格式、采样率等属性,但其中没有可确认的词或可比较的实体,不能像文本那样搜索其内容,因此很难用现有基于关键词的检索方法检索。当然可以人工输入其属性和描述来弥补,但随着数据量的增大人工注释的强度也将加大。而且,人对非结构化数据的感知,如音乐的旋律很难付诸文字。第三,新一代高速因特网的出现对基于内容的多媒体信息检索提出了迫切要求。1996年美国启动的NGI(NextGenerationInternet)计划目标是实现端到端的传送速率比目前的Internet快成百至上千倍,可达到100Mbps至1Gbps,实现大量交互式多媒体的高速传送,构建可视化、合作型虚拟现实(VR)和3D虚拟环境。今年8月国家863计划中被称为宽带互联网"心脏"的核心路由器项目正式通过了国家科技部组织的验收,标志着我国新一代高速互联网"中国高速信息示范网"的攻坚战基本完成。这个高速信息实验网以IP技术为基础,将计算机、电信和电视网三网合一,将使以电路交换技术为基础的传统电信网逐渐退出历史舞台。总之,未来的因特网将是以人为中心,支持服务质量控制(QoS),实现多用户多媒体实时交互,这就要求在资源检索方面,用基于内容的多媒体检索取代传统基于关键字的检索。
二、基于内容的检索CBR
基于内容的检索CBR(Content-BasedRetrieval)是根据媒体和媒体对象的内容语义及上下文联系进行检索。它具有如下特点:(1)直接对图像、视频、音频等媒体内容进行分析,抽取特征和语义建立索引,进行检索。(2)放弃常规数据库检索中的精确匹配方法,而采用相似性匹配的方法逐步迭代求精获得检索结果。(3)能对大型多媒体数据库进行快速检索。(4)采用多种检索手段,除提取多媒体内容特征进行检索外,还提供了其它检索手段,如通过提供样本图像进行相似性检索,或通过人机交互进行浏览检索。
完整的CBR系统一般由两个子系统构成,即数据库生成子系统和检索子系统。每个子系统由相应的功能模块和部件组成,包括:(1)对象标识、(2)特征提取、(3)数据库、(4)用户检索和浏览接口、(5)搜索引擎、(6)索引和过滤器。
对因特网多媒体资源的CBR检索历经特征调整、重新匹配、逐步求精的循环过程:(1)最初用户可用检索语言形成一个初始化的检索,系统提取该示例的特征或把检索描述映射为具体的特征矢量。(2)将检索特征与特征库中特征按一定匹配算法进行相似匹配。(3)按相似度大小,将满足一定相似条件的候选结果排序后反馈给用户。(4)用户挑选候选满意的结果,或从候选结果中选择一个示例,经特征调整后形成新的检索。(5)逐步缩小检索范围,直到用户对检索满意为止。
对文本的检索则采用直接对文本进行任意字词的检索。根据实现方法不同,可分为串搜索、串匹配和全文检索,以字和词以及它们的逻辑组合为条件进行检索。
对图形的检索包括:(1)点检索,查找某坐标处的目标。(2)线检索,查找线状目标两侧的目标。(3)区域检索,查找某区域内的图形目标。(4)关联检索,利用两个或多个图形对象之间的空间和拓扑关系来检索。
对图像的检索是基于图像的颜色、纹理、形状以及图像中子图像等特征,包括:(1)颜色检索,检索与用户指定颜色相似的图像。(2)纹理检索,检索具有相似纹理的图像。(3)形状检索,用户选择形状或勾勒草图,利用形状特征或匹配主要边界进行检索。(4)图像对象检索,对图像中所包含的静态子对象进行查询。
对视频的检索可分为基于镜头、场景、关键帧、运动的检索。关键帧是一幅幅图像,可以采用与图像检索相似的方法。一旦检索到目标关键帧,用户可利用播放来观看它代表的视频片断。而镜头表示一个摄像机的移动操作、一个事件或连续的动作,由一个或多个关键帧构成。场景又由若干个镜头构成。基于运动的检索,是利用镜头和视频对象的时间特征检索,可检索摄像机的移动操作和场景移动,以及用运动方向和运动幅度等。
对音频的检索是将音频分为三类:波形声音、语音、音乐,分别对应物理样本级、声学特征级和语义级,利用声学的和主观的特性进行检索。声音的一些感知特性,如音调、响度、音色等,与音频信号的测量属性非常接近,在音频数据库中记录这些特征,并利用这些特征进行示例和指定特征值检索。
2001年11月MPEG组织将推出针对基于内容多媒体信息检索的MPEG-7,其正式命名为"多媒体内容描述接口",它将规定一套可用于描述各种多媒体信息的描述符标准,支持用户对多媒体资源进行快速、有效的检索。MPEG-7将多媒体信息描述标准化,并解构成语义上的层次。以视频为例,最底层的语义描述是形状、大小、颜色、运动等信息,而最高层的语义描述可以是"画面中一个小女孩在草地上嬉戏,背景声为欢快的儿歌。"介于这两层之间的是中层语义描述。一般来说,底层语义由全自动方式提取,高层语义则需要较多人工介入。除了内容描述,描述还包括:格式、获得资料的条件、分类、与其它相关资料的连接以及上下文信息等。通过MPEG-7可实现视频数据库的存储和检索、专业媒体制作中图片和视频提交、用户代理驱动的媒体选择和过滤、个性化浏览等。