internet技术与应用基于Internet的信息资源发现技术与实现王继成 邹 涛 杨小江 潘金贵 张福炎摘 要:Internet上大量、异质、分布、动态的信息造成了“信息过载”.在信息充斥的情况下,如何有效地为用户提供基于Internet的资源发现服务已经成为一项重要而迫切的研究课题.搜索引擎部分地解决了资源发现的问题,然而其效果却远不能使人满意.文中首先提出了分布协作式资源发现策略,讨论了资源发现服务中所涉及的几项关键技术,包括:多维文档立方体数据模型、Web文档检索、基于Z39.50的书目检索以及基于Agent的用户接口等,并给出了相应的解决方案.在此基础上,文中构造了一个系统原型RDSCC,以有效地提高Internet上资源发现的质量.关键词;资源发现,多维文档立方体,Web,Z39.50,Agent中图法分类号:TP391; TP393THE TECHNOLOGY AND IMPLEMENTATION OF RESOURCEDISCOVERY ON INTERNETWANG Ji-Cheng, ZOU Tao, YANG Xiao-Jiang, PAN Jin-Gui, and ZHANG Fu-Yan(State Key Laboratory for Novell Software Technology, Nanjing University, Nanjing 210093)(Department of Computer Science and Technology, Nanjing University, Nanjing 210093)Abstract A mass of heterogeneous, distributed, and dynamic information on Internet has resulted in “information overload”. With the flood of information, it has become an important research issue to provide users with effective service of resource discovery on Internet. Search engines attempt to solve this problem, yet their effect are far from satisfying. In this paper, a distributed cooperative strategy for resource discovery on Internet is firstly presented. Then, several key technologies involved in resource discovery are studied, including data model, Web document retrieval, bibliographic retrieval based on Z39.50, and agent-based user interface. Finally, a system prototype RDSCC is designed to improve the quality of resource discovery on Internet.Key words resource discovery, multi-dimension document cube, Web, Z39.50, agent1 引 言人们已经进入信息极大丰富的时代.一方面,信息来源广泛,包括Web文档、图书文献,数字化资料等,这些异构的信息分布在Internet空间中;另一方面,信息量巨大.以Web文档为例,目前已经拥有3亿页面,而且这个数字仍以每4至6个月翻一倍的速度增加〔1〕.面对信息的海洋,人们觉得力不从心,往往花费了很多时间却所获甚少.在这种情况下,如何有效地提供基于Internet的资源发现服务,以帮助用户从大量信息资源的集合中找到与给定的查询请求相关的、恰当数目的资源子集,也就成为一项重要而迫切的研究课题.传统的搜索引擎,例如AltaVista,Yahoo等,试图解决Internet上的资源发现问题.但是,从资源覆盖度、检索精度、检索结果可视化、可维护性等诸多方面来看,其效果远不能够令人满意.此外,搜索引擎仅提供对Web文档的检索,缺乏对书目文献等其它重要信息资源的支持.在本文中,我们针对Internet资源发现的现状,提出了分布协作式资源发现策略,同时,讨论了资源发现服务中所涉及的几项关键技术,其中包括:多维文档立方体数据模型、Web文档检索、基于Z39.50的书目检索以及基于Agent的用户接口等.在此基础上,我们设计了一个系统原型RDSCC,以有效地提高Internet上资源发现的质量.2 资源发现的分布协作策略我们注意到,搜索引擎采用的是典型的集中方式,它们试图遍历整个Web,对其上所有的文档生成索引,供用户检索.这种集中方式给Web文档检索带来了一些严重的弊端,主要表现在:①覆盖度有限,据估计,任何一个搜索引擎索引的Web页面都不到页面总数的三分之一〔2〕;②维护困难,搜索引擎索引数据库的更新频率有限,往往会产生索引失效〔3〕;③消耗太大,包括网络带宽、搜索引擎自身昂贵的硬件设施等.元搜索引擎,例如MetaCrawler,通过综合多个搜索引擎的结果,在一定程度上扩大了覆盖度.但是,元搜索引擎对搜索引擎的依赖,使它无法从根本上解决上述问题.随着信息资源的种类和数量的急剧增长,集中方式使得上述弊端更为恶化.一方面,需要管理的信息资源极其巨大,任何一个集中式资源发现系统都无法完全满足需求;另一方面,各个集中式资源发现系统各行其是,重复建设.因此,我们认为,Internet上的资源发现应该采取分布协作的策略.资源发现的分布协作策略,是指按照某种原则对Internet上的信息资源空间进行划分,得到若干个信息资源子空间.对于每个子空间,分别建立一个资源发现系统以提供相应的资源发现服务.目前,分布计算以及多Agent系统等领域的研究已经取得了丰硕的成果,可以用于集成这些自制、异构的资源发现系统,从而构成Internet上的协作检索群体.信息资源空间的划分原则可以是按照学科领域,也可以按照地理区域等.例如,我们可以为各种不同专业的科研人员建立专业领域资源发现系统.用户可以根据自己的需要向相应的系统提出请求.采用分布协作的资源发现策略,各个资源发现系统所要管理的信息资源相对缩小,可以降低消耗,便于维护;同时,各系统之间通过相互协作,扩大了覆盖度.可见,这种策略可以有效地克服集中方式的不足,提高资源发现服务的质量.3 资源发现服务中的关键技术资源发现系统的开发是一个涉及多领域、多技术的复杂工作.其中,数据模型是系统的核心,Web文档和书目数据是系统的两个重要信息来源,而用户接口的好坏直接决定了系统的使用效率.下面,我们对这几项关键技术分别加以讨论,给出相应解决方案.3.1 数据模型就管理信息资源而言,数据库优于平面式文件系统.因此,资源发现系统通常采用文档数据库来存储异构的信息资源.文档数据库的内部实现一般采用半结构化的逻辑模型,而其外部表现,即反映给用户的视图,则构成了资源发现系统的概念模型.例如,搜索引擎返回给用户的通常是一个顺序固定的线性列表,其中包含了Web文档的标题、URL和摘要.在这种概念模型中,用户必须逐个地浏览以找到相关文档,花费了大量的精力.当返回的结果数目众多时(这种情况非常普遍),这个问题更为突出.对用户行为的有关研究表明,用户经常希望能够从多个角度观察信息资源,而不满足于简单的、固定的列表.OLAP是数据库环境中的一种有力的分析工具,它为用户提供了关于数据的多维视图〔4〕.虽然Web文档等信息资源和数据库有着本质的区别,但我们认为OLAP技术对其仍有借鉴之处.下面,我们引入多维文档立方体作为资源发现系统的一种新的概念模型.定义1. 维d,是指人们观察文档的角度.例如,某个用户希望从时间、机构等角度来观察文档.用户也常常关心某个主题分类的文档情况.这里的时间、机构、主题分类等元数据就构成了文档的维.定义2. 多维文档立方体CDocument,是指以文档Document为中心,以文档的元数据(维di)分布在文档的周围,从而构成的一个超级立方体(d1, d2,…,dm, Document).在多维文档立方体上,可以进行各种多维分析操作,包括:切片、切块、旋转、上钻、下钻等,从而生成多种文档视图,使用户能够从多个角度观察文档资源的各种特征,深入了解包含在其中的信息内涵.例如,用户可以通过切片从文档集合中来选择某个机构的文档子集.在该子集中,按照主题内容来分组,在同一个主题内按照时间进行排序.用户既可以通过上钻来折叠视图,观察每个主题的总体特性;也可以通过下钻来展开视图,观察每个子主题或每个文档的具体特性.如图1所示.图1 文档超立方体与多维文本视图除了能够为用户提供有效的可视化手段以外,在多维文档立方体上还可以进行统计分析,从而能够揭示文档资源中的特征分布.例如,我们可以比较不同的机构在不同的时间中关于各个主题的文档的情况,从而回答一些搜索引擎无法回答的问题,例如“近年来哪所大学在图形图像领域中发表文章最多?”.需要说明的是,上述多维文档立方体和多维文档分析必须建立在利用计算机语言学和信息处理技术对文档资源进行预处理的基础之上.文档维来自于预处理所得到的元数据,例如时间、作者、主题等.3.2 Web文档检索目前,Web已经成为人们获取信息的重要来源. Altavista等搜索引擎的检索算法相对简单,检索精度有限,这使得检索到的Web文档的相关性得不到保证〔3〕.Yahoo通过对Web文档进行分类以方便用户的浏览和查找,但分类工作由人工完成,大大影响了其处理的页面数目(Yahoo! 对Web文档的覆盖度远远小于Alta-vista等).为此,我们设计了一种新的Web文档检索模型,包括语料库维护、词典维护、Robot、特征矢量生成器、训练器、分类器等6个部分组成,如图2所示.该模型能够分析用户的信息需求,然后自动搜集满足目标特征的Web文档供用户查阅.图2 Web文档检索模型在该模型中,我们采用了常用的向量空间模型(vector space model,VSM)〔5〕作为用户信息需求和文档特征的表示方法.VSM将每一个(或每一类)文档映射为由一组范化正交词条矢量所张成的向量空间中的一个点.每个用户信息需求或未知文档都可以表示为该向量空间中的一个特征矢量(T1,W1;T2,W2;…,Tn,Wn),其中Ti为特征词条项,Wi为特征词条权值.这样,文档与用户信息需求的匹配以及文档的分类都转化为向量空间中的矢量匹配处理.该模型的工作分为训练和分类两个阶段.(1) 在训练阶段,用户首先建立语料库,即给出一批代表其信息需求的示例文档(每个文档被标上一个类别标识).特征矢量生成器利用词典库(常用词典和专业技术词典)将训练文档表示为一系列特征矢量.训练器对每类训练文档的特征矢量进行统计,生成代表该类的特征矢量.(2) 在分类阶段,Robot模块首先将Web文档收集到本地.特征矢量生成器将本地的待分类文档表示为一系列特征矢量.分类器将待分类文档的特征矢量与训练器生成的类别特征矢量进行相似度匹配以得到文档的分类,并将符合相似度阈值条件的已分类文档返回给用户.经实用表明,该模型能够对大量Web文档进行自动、快速地分类〔6〕.由于使用了专业技术词典,分类精度明显高于面向普通文档的系统,较好地保证了检索到的Web文档与用户需求的相关性.3.3 基于Z39.50的书目信息检索图书文献是人们获取信息的另一个重要来源,因此联机书目检索是资源发现系统的重要组成部分.图书馆的联机书目检索服务传统上是通过Telnet方式提供的.近年来,许多图书馆采用Web加CGI的形式为书目检索提供图形化界面.这些服务方式的一个重要缺陷在于各个图书馆的书目检索界面不一致,用户要检索每个图书馆就必须熟悉相应的界面.为此,ISO制定了Z39.50协议,作为检索远程图书馆书目的标准〔7〕.Z39.50是一个运行在TCP/IP协议之上的应用层协议.它规定了客户机查询服务器以及提取结果记录等过程中所涉及的数据结构和数据交换规则,从而解决了现存书目数据库检索接口的异构性问题.目前,该标准已经被国外许多图书馆所采纳,但国内尚未有一家图书馆提供基于Z39.50的书目检索服务.我们设计了一个基于Z39.50的联机书目检索模型,并在此基础上成功地开发出国内第一套基于Z39.50的书目信息检索系统〔8〕,如图3所示.图3 基于Z39.50的书目信息检索模型在该模型中,图书馆的书目存放在数据库服务器的一个或几个书目数据库中.Z39.50服务器在约定端口上侦听用户的连接请求(InitRequest).在成功地建立连接后,Z39.50客户发出查询请求(SearchRequest),Z39.50服务器将接收到的“抽象的”Z39.50标准查询转换为“具体的”SQL查询,提交给后台数据库服务器执行,生成查询结果集.然后,Z39.50服务器将查询的执行情况以及部分结果返回.Z39.50客户可以多次发出提取请求(PresentRequest)来获得结果集中的所有书目数据.为了使一个Z39.50客户能够同时查询多个图书馆的书目,我们在客户端采用多进程(多线程),和多个服务器并发地建立连接,并对查询结果进行后处理,包括综合各进程的查询结果、消去其中重复出现的书目等.3.4 基于Agent的用户接口在资源发现系统中,用户接口在用户与信息资源之间起着桥梁作用.由于信息资源的大容量、动态性和复杂性,传统的人机交互方式显得无能为力.基于Agent的用户接口被认为是解决人机交互问题的一个突破口〔9〕.目前,Agent技术的研究虽然十分流行,但对于其定义和特征还没有统一的结论.我们从软件抽象的角度出发,给出如下定义.定义3. Agent是一种抽象手段,它既可以用来描述复杂系统又能够描述系统与用户之间的交互.定义4. 用户接口Agent是用户在与计算机系统接口时使用的一种形象化抽象,可以简要地表示为一个四元组(Task, Knowledge, Constrain, Status).其中,Knowledge是知识库,保存从外界学习到的知识,例如用户的信息需求和爱好等;Constrain是约束条件集合,例如用户对Agent运行时间作出的限制等;Status是Agent运行状态的集合;Task是任务求解模块,它在知识库、约束集、状态集的基础上运用推理规则处理事件及完成任务.在用户看来,用户接口Agent是一个半自主的应用程序.一方面,它拥有知识,了解用户的需求和爱好,能够代表用户智能地完成某个任务,并具有学习和适应能力;另一方面,它受用户的控制.用户可以观察它的活动状态,也可以临时性地暂停或恢复其活动,甚至将它永久性地撤销.用户接口Agent在资源发现系统中执行的任务是多种多样的.当系统中增添了用户感兴趣的信息资源时,Agent将通知用户. Agent也可以根据用户的需求或偏爱对信息资源进行过滤,建立个性化的界面.可见,基于Agent的用户接口为用户与复杂、动态的信息世界进行交互提供了重要手段.4 基于Internet的资源发现系统原型在上述讨论的基础之上,我们开发了的一个资源发现系统原型RDSCC(resource discovery system for computer community). RDSCC是一个面向计算机学科领域的专业资源发现系统,其目的是为该领域的研究人员提供Internet资源发现服务以掌握本专业的全面、最新信息.该系统结构如图4所示.图4 Internet资源发现系统原型RDSCCRDSCC由8个模块组成.其中,文档数据库系统负责管理半结构化文档资源.为了提高易用性,我们采用Web服务器来向用户提供资源发现服务.转换器作为Web服务器和文档数据库系统的中介,可以将文档数据库的内容转换成HTML格式,也可以把用户输入转换成对文档数据库系统的操作.Web文档收集与分类器下载符合用户信息需求的有关计算机方面的Web文档并进行自动分类.元数据抽取器从已分类文档中抽取文档元数据,导入器将文档和元数据存储到Web文档库中,并建立索引.Z39.50网关提供基于Z39.50的书目检索服务,依据用户通过HTML表单提交的查询请求(包括查询哪些图书馆以及何种计算机书目),同时查询多个图书馆的Z39.50服务器.用户利用浏览器可以进行各种多维文档分析操作,从多个角度来阅读和检索文档库的内容.系统还利用Agnet技术为用户提供了配置(profile)机制,用户可以订阅文档,定制浏览界面.5 结束语在信息充斥的情况下,基于Internet的资源发现服务是一个具有极大潜力的研究方向,用户可以从分布的不同资源发现系统中获取所需的信息资源.本文提出了分布协作式资源发现策略,对资源发现系统开发中所涉及的数据模型、Web文档检索、书目检索以及用户接口等关键技术作了研究,并简要介绍了一个网络信息服务系统原型RDSCC.在该领域仍有许多问题值得深入探讨,包括:在DCOM/CORBA计算环境上实现多个资源发现服务器之间的分布协作;利用HTML、XML等规范从Web文档中抽取元数据等等,这些都将是我们下一步要进行的工作.*本课题得到江苏省“九五”科技重点攻关项目(项目编号BE96017)和江苏省教委图书馆自动化项目资助.作者简介:王继成,男,1973年6月生,博士研究生,主要研究方向为计算机网络、信息处理.邹涛,男,1970年11月生,博士研究生,主要研究方向为计算机网络、信息处理.杨小江,男,1965年6月生,博士研究生,主要研究方向为超媒体、信息处理.潘金贵,男,1952年1月生,教授,主要研究方向为中间件、Agent技术.张福炎,男,1939年11月生,教授,博士生导师,主要研究方向为多媒体、CAD与图形学、信息处理.作者单位:南京大学软件新技术国家重点实验室 计算机科学与技术系 南京 210093参考文献1 Gudivada V N et al. Information retrieval on the world wide web. IEEE Internet Computing, 1997, 1(5): 58~682 Lawrence S, Giles C L. Searching the world wide web. Science, 1998, 280(5360): 98~1003 Lawrence S, Giles C L. Context and page analysis for improved web search. IEEE Internet Computing, 1998, 2(4): 38~464 王珊等. 数据仓库技术与联机分析处理. 北京:科学出版社, 1998(Wang Shan et al. The Technology of Data Warehouse and OLAP(in Chinese). Beijing: Science Press, 1998)5 Salton G et al. A vector space model for automatic indexing. Communications of ACM, 18(5): 613~6206 邹涛, 王继成, 张福炎等. 基于Web的资料搜集系统的设计与实现. 情报学报, 18(3): 195~201(Zou Tao, Wang Jicheng, Zhang Fuyan et al. The design and implementation of an information gathering system. Journal of the China Society for Scientific and Technical Information(in Chinese), 18(3): 195~2017 ANSI. Information Retrieval(Z39.50): Application Service Definition and Protocol Specification. ANSI/NISO Z39.50-1995. Bethesda, MD: NISO Press, 19958 杨晓江, 张福炎等. 利用Z39.50提供联机书目检索服务. 软件学报, 10(8): 824~828(Yang Xiaojiang et al. Bibliographic retrieval based on Z39.50. Journal of Software(in Chinese), 10(8): 824~828)9 Baecker R et al. Readings in Human-Computer Interaction: Towards the Year 2000. Morgan Kaufmann Publishers, 1995