信息检索技术论文 –
基于网格的面向专业内容的Web信息检索
1 引言
近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。
2 基于网格的面向专业内容的Web信息检索体系结构的设计
网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。
为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1
(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。
(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。
(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。
图1
本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。
2.1 集群系统的设计
由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。
集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。
下面主要说明基于专业内容的XML信息集成系统的构造方法:
XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。
目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。
图2
2.2 网格中间件的设计
图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。
内部主要功能模块说明如下:
(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。
(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。
(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。
(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。
(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。
其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网
计算机信息管理专业毕业论文题目(参考)
网络电话应用程序设计
中小型企业物资管理系统
网上超市销售与管理
中小型企业的仓储管理系统
中小型企业的客户关系管理系统
酒店管理与决策支持系统
铁路售票管理系统
计算机考试系统的开发应用
步进电机控制器设计
网上商店安全电子交易
网上通用教学自测系统
大/中型网络规划与设计
基于校园网的电子商务网站交易系统
网吧管理系统
小型企业主生产计划子系统
大型贵重设备资源共享数据管理系统设计
存储体系中块/页调度的综合性演示软件
小型企业人力资源管理系统设计
计算机公司销售管理系统
多媒体CAI课件制作
PDA手机编程
CRM的简易制作
存储体系的多媒体软件
网上协作学习系统
网上考务系统的实现
FTP服务器设计与实现
学生信息管理系统
甘蔗成长分析系统
基于DCOM的分布式多媒体系统
基于局域网的通信监管理系统
基于J2EE平台MVC架构的设计实现
基于COM试验机测试控制系统
基于J2EE的电子商务系统
多媒体远程教育
数据库加密研究
数据库非修改性攻击技术
安全性整体检验算法与研究
长岭集团冰箱配套管理
计算机系教师信息管理系统
计算机软件综合实验CAI深度研制
系级党务管理系统(计算机系)
学生管理评估网络系统
公司商品订货系统
设备质检信息管理系统
线性流水过程演示系统
物资管理系统客户端
模拟电路疑难点的CAI课件
水温控制系统的设计
网络用户特征分析设计(个人版)
网络安全-黑客攻击手段分析
家庭防盗报警器
物资管理信息系统分析与设计
企业考勤管理系统
医院门诊-住院收费系统
个人助理的应用与研究
酒店信息管理系统
电子商务中信息传递安全问题研究
视频业电信网络中的应用
基于FPGA的TCP/IP协议内核
网上教务信息管理系统的设计
知识供应链模型及其咨询网站开发
物资管理信息系统服务器端代理服务器
广西城市建设学校人事管理系统
并行程序设计-HANOI塔问题的求解
基于网络的法端达公司商务管理
网络用户特征分析设计(企业版)
USB通信方式研究
车辆装备维护技术保障系统
网上购房系统
嵌入式操作系统 uc/os-II 的分析与研究
基于ORCAD的CAI实现
多媒体动态网站设计
动态网站制作
基于WEB的电子科技书店
在线考试系统
财务管理软件
W INDOWS 2000 看门狗设计
预测模型分析及实用软件开发
用户兴趣学习系统
商务通 - 网上超市
网上实时与非实时答疑系统
基于网络的实验上机考核系统设计
库存控制模型研究及信息系统开发
医院管理系统--财务、人事管理
餐饮管理系统
冠岩景区外联预报结算系统
网络故障报警系统研究
儿童体质监测系统
中学教务管理系统
糖厂车辆调度管理系统
银行信贷管理系统
漓江信息产业集团计划任务管理系统开发
网上教育环境支撑系统
桂林集联旅游汽车公司结算系统
IP可视电话--音视频传输
电子商务模拟软件设计--网上超市
网络通信中的加/解密技术
PCI驱动程序的开放
基于EXCEL自动报表生成系统
医疗保险金自动审核
足彩据的收集与分析
LINUX环境下的防火墙设计
基于某公司的原料库存预测子系统
网络商场
超市管理系统
网上商品房销售系统
操作者特征提取及身份识别研究
PDM的多文档管理
精度设计的计算机模拟
汽车网上交易系统
多人协作博弈模型及其软件开发
有线电视收费管理系统
基于DIREXCT的游戏设计
电子公告板系统开发
电子器件仓储管理系统
线性方程组的并行算法
XML到关系数据库转换工具的实现
基于PETRI网的综合算法研究
基于XX公司的生产量的决策子系统
关系运算的并行算法
国土资源信息办公一体化系统
工模具厂信息管理系统开发
网上就业需求管理系统
基于ERP的企业管理系统---计划管理系统设计
测试系统用户界面与安装程序实现
电子商务网站管理与安全系统
基于UPPAAL实时系统验证技术应用
基于CORBL环境主机的查询系统与编程技术
网上批发采购管理系统
电子政务--电子日历系统
基于网络的连锁超市的物流管理系统
基于校园网的交互式网络教学系统
公文阅读安全保证系统
ERP采购管理系统
基于SMV的协议验证技术应用
查询系统随机加解密技术研究