计算机检索、网络文献检索将成为信息检索的主流。 网络信息检索,也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。 信息检索的对象包括:文献检索(Document Retrieval),是以文献(包括题录、文摘和全文)为检索对象的检索,可分为全文检索和书目检索两种;数据检索(Data Retrieval)是以数值或数据(包括数据、图表、公式等)为对象的检索; 事实检索 (Fact Retrieval)是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索。 1990年以前,网络信息检索的现状与发展没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg 等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展,那么这些检索工具的现状和发展趋势如何呢? 基于网页的网络信息检索工具的现状和发展趋势现状。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。
1、信息素质的具体内容?信息素质是指用户在利用以计算机及其网络技术为代表的现代科学技术进行知识学习、成长的过程中,逐步形成的制动参与信息活动、自觉应用信息技术的意识、态度、理念及具备的获取、识别、加工、处理、传递、创造信息的能力和利用信息去解决实践问题的能力。它包括强烈的信息意识、系统化的信息理念、综合信息能力等内容。2、信息、知识、文献的概念和相互关系?信息是物质的一种带有普遍性的关系属性,是物质存在方式及其运动规律、特点的外在表现。知识是人们在改造世界的实践中所获得的认识和经验的总和,是人的大脑通过思维重新组合的系统化的信息集合。文献是记录有知识的一切载体。是以文字、图像、符号、声频、视频等作为记录手段,将信息记录或描述在一定的物质载体上,有其特定的表现形式,能起到存贮和传播信息情报与知识作用的载体。通过上述对信息、知识与文献的分析,可以认为信息是宇宙间的一切运动状态及对其报导。宇宙间时时刻刻都在产生着信息,人们正是通过对这些不同信息的获取来认识不同事物,并由此生产新的知识。知识是经人脑思维加工而成为有序化的人类信息。文献则是被物化了的知识记录,是被人们所认知并可进行长期管理的信息。文献又是贮存传递知识和信息的介质,它们之间的逻辑关系是一种包含关系。3、文献的组成要素?文献有哪些类型?文献主要由信息内容、载体材料、信息符号和记录方式四个基本要素构成。文献主要类型有:图书、报刊、特种文献、缩微资料、机读文献、视听资料、立体形象资料、光盘资料。4、什么是信息检索?信息检索与文献检索关系?信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称又叫“信息的存储与检索(Information Storage and Retrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。信息检索的意义和作用主要是能有效提高人们检索信息和利用信息的效率。对大学生来说,文献信息检索时培养学生能力的基本技能和方法之一,最主要的是自学能力、研究能力、思维能力、表达能力和组织管理能力的培养,是科学研究不可缺少的一项工作。5、简述信息检索的原理。以一定的规则和方式对信息单元进行标引,检索时用户选择一概念组构成检索式对所需信息进行特征描述,然后采用一定的技术将检索式与标引的信息单元进行比较、匹配,最后找出匹配度高的作为检索结果传递给用户。6、什么是计算机信息检索系统,它由几个部分组成?计算机信息检索系统是信息检索所用的硬件资源、系统软件和检索软件的总合。它能存储大量的信息,并对信息条目(有特定逻辑含义的基本信息单位)进行分类、编目或编制索引。它可以根据用户要求从已存储的信息集合中抽取出特定的信息,并提供插入、修改和删除某些信息的能力。 一个完整的信息检索系统,通常由信息源、信息组织管理、系统功能、用户接口和系统支持技术等几个有机部分组成。7、计算机信息检索技术有哪些?计算机检索技术:布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索并向着智能化方向发展。8、从外表特征与内容特征来看,检索语言的类型各有哪些?不同特征各举一简单的检索式。(1)描述信息外部特征的检索语言包括题名(书名、刊名、篇名)、著者姓名/单位名称、出版事项、代码/序号(如专利号、报告号、标准号)等等;如检索《水浒传》则为检索书名。(2)描述信息内容特征的检索语言包括分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言;如在搜索栏打“桥梁”则桥梁为关键词。9、为什么要创建“检索语言”,它有哪些类型?比较分类语言和主题语言的优缺点。检索语言就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。因此,编制检索语言的目的就是不但能够保证不同的标引人员描述文献特征的一致性,而且能够保证检索提问词与文献标引词的一致性。要把存储和检索联系一致,检索语言所表达的概念应该是唯一的。这就是说,表达的概念同所要表达的事物一一对应,尽量减少一词多义或多词一义的现象,要使其在该检索系统中具有单义性。(一)按照标识的性质与原理划分 1) 分类语言 2).主题语言 3) 代码语言 (二)按照表达文献的特征划分 1) 表达文献外部特征的检索语言 比较优缺点:1分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。 以知识属性来描述和表达信息内容的信息处理方法称为分类法。著名的分类法有《国际十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆图书分类法》等。 2.主题语言 主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题语言来描述和表达信息内容的信息处理方法称为主题法。主题语言又可分为标题词、元词、叙词、关键词。10、传统检索技术与网络检索技术的主要区别体现在哪些方面?区别:网络检索更加快捷,以互联网为媒介。信息量更大,网上的数据库容量几乎无限,更有前途11、我国标准分为哪些等级?分别用哪些符号表示?我国标准体制目前分为四级:国家标准、行业标准、地方标准和企业标准。国标的代号是GB,推荐性的为GB/T,其他级别的推荐性标准类似。行业标准有70个左右,代号都是两个(拼音)字母。地方标准的代号是DBXX,企业标准代号的标准格式是 Q/XX,XX也可以是三位,建议不超过四位。12、专利的新颖性、创造性和实用性各自含义,中国保护的专利类型?专利的新颖性,是指申请日前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。专利的创造性:是指在有新颖性的情况下,不同的技术之间实际上是没有产生意想不到的技术效果,简单说,就是两者之间的差异不明显,而且效果无进步专利的实用性:指该理论或者观点的提出对实践的知道程度。中国保护的专利类型有3种类型,分别是:发明专利、实用新型专利和外观设计专利。13(14)、专利文献的特点、专利说明书的结构。专利文献的特点:1) 专利文献集技术、法律、经济信息于一体,是一种数量巨大、内容广博的战略性信息资源。2)专利文献传播最新技术信息。3) 专利文献的格式统一规范,高度标准化,并且具有统一的分类体系,便于检索、阅读和实现信息化。4) 专利文献对发明创造的揭示完整而详尽。 专利说明书的结构:发明或实用新型的名称。发明或实用新型所属的技术领域。现有技术和背景技术发明或实用新型的月的。发明或实用新型的技术方案。发明或实用新型与现有技术相比具有的优点、特点或积极效果。对附图的说明。实施例或者具体的实施方式。如果是涉及微生物方面的申请,文件中还应当写明该微生物的特征和分类命名,并注明拉丁文名称15、专利文献的分类方法,分类号的结构组成,专利检索的目的。专利文献采用功能(发明的基本作用)和应用(发明的用途)相结合,以功能为主的分类原则。采用等级形式,将技术内容按部(Section)、分部(Subsection)、大类(Class)、小类(Subclass)、主组(Main group)、分组(Subgroup)逐级分类,形成完整的分类体系。 分类号结构组成:部 类 小类 主组 分组。专利检索目的:专利检索之目的,是为了有效率地搜集最新之专利资讯,以窥得目前相关技术的发展情况,并可参考他人研究成果来缩短研发经费与时间的投入,也能进行回避设计以避免侵犯他人之专利权。另外,可将所得到的专利技术情报用来判断其他企业的经营方向、技术水平、市场布局,并从而制定正确的因应策略,知己知彼正是商场竞争致胜的关键。一般而言专利检索可以帮助研发人员和企业,追踪技术发展动向,策划研发方向和研拟市场竞争策略。16、什么是会议文献?若查找国外各种学术会议的信息,利用哪些检索工具?1、会议文献是传递和获取科技信息的一种极为有效的重要渠道。 2、检索工具:中国知网《中国重要会议论文全文数据库》、万方数据《中国学术会议论文文摘数据库》 中国学术会议在线 因特网会议预告 欧洲研究会议 国际标准化组织的标准化会议预告 医学会议查询7、阐述我校图书馆引进或购置的外文数据库的类型及其收录特点。类型:1)EBSCOhost 系统全文数据库 1、学术期刊集成全文数据库2、商业资源集成全文数据库 3、传播和大众传媒数据库 4、报纸资源数据库 5、教育类全文期刊数据库 2)Springerlink电子期刊及图书 收录特点:EBSCOhost目前已拥有60多个数据库,10余各全文数据库以及其他数据库,内容涉及综合科学、商业、管理、财经、医学、教育学、军事、农业、人文等各个方面。其中学术期刊集成全文数据库和商业资源集成全文数据库是CALIS集团最早组织的数据库品种之一,已经为国内多所高校熟悉和使用。 Springerlink可访问的期刊种数有1850余种,其中可访问的全文刊为1150多种,其中95%以上的期刊为英文,其中许多为英文核心期刊,被著名的二次文献服务收录并在ISI的 SCI里有很高的影响因子。18、网络资源的特点与种类?搜索引擎的功能。特点: 从内容上界定 数量上的海量性。种类上的繁多性。分布上开放性。内容上的关联性。从形式上界定 编排上的非线性。使用上的交互性。更新上的动态性。 从效用上界定资源的共享性。资源的时效性。资源的转移性。资源的选择性。资源的增值性。 种类: 资源中心模式。 分布式资源系统。 学科资源库模式。搜索引擎的功能: A、基本的检索功能 a、布尔逻辑算符 b、截词算符 c、词位算符 d、限制检索 B、其他的检索功能 a、自然语言检索 b、多语种检索 c、概念检索 d、过滤检索19、写出“标准文献、专利文献、学位论文、研究报告”作为参考文献时的标注格式。(1)专利文献:序号专利申请者专利国别,专利文献种类,专利号出版日期 (2)技术标准:序号 起草责任者标准代号标准序号-发布年标准名称出版地:出版者,出版年 (3)学位论文:序号 作者 题名:[学位论文]保存地:保存着,年份 (4)会议论文:序号 作者 题名会议名称,会址,会议年份20、学术论文一般由哪几部分构成?各部分的写作规范分别是什么?(一)题名(Title,Topic)对论文题目的要求是:准确得体、简短精炼、外延和内涵恰如其分、醒目。(二)作者姓名和单位(Author and department) 大致分为二种情形,即:单个作者论文和多作者论文。后者按署名顺序列为第一作者、第二作者。重要的是坚持实事求是的态度,对研究工作与论文撰写实际贡献最大的列为第一作者,贡献次之的,列为第二作者,余类推。注明作者所在单位同样是为了便于读者与作者的联系。 (三)摘要(Abstract) 文字必须十分简炼,内容亦需充分概括,篇幅大小一般限制其字数不超过论文字数的5%。例如,对于6000字的一篇论文,其摘要一般不超出300字。 论文摘要不要列举例证,不讲研究过程,不用图表,不给化学结构式,也不要作自我评价(四)关键词(Key words) 关键词属于主题词中的一类。主题词除关键词外,还包含有单元词、标题词的叙词。 主题词是指以概念的特性关系来区分事物,用自然语言来表达,并且具有组配功能,用以准确显示词与词之间的语义概念关系的动态性的词或词组。(五)引言(Intorduction) 引言的文字不可冗长,内容选择不必过于分散、琐碎,措词要精炼,要吸引读者读下去。引言的篇幅大小,并无硬性的统一规定,需视整篇论文篇幅的大小及论文内容的需要来确定,长的可达700~800字或1000字左右,短的可不到100字。(六)正文(Main body) 要求这一部分内容充实,论据充分、可靠,论证有力,主题明确。为了满足这一系列要求,同时也为了做到层次分明、脉络清晰,常常将正文部分人成几个大的段落。这些段落即所谓逻辑段,一个逻辑段可包含几个自然段。每一逻辑段落可冠以适当标题(分标题或小标题)。 (七)结论(Conclusion) "结论"部分的写作要求是:措词严谨,逻辑严密,文字具体,常象法律条文一样,按顺序1、2、3……列成条文,用语暂钉截铁,且只能作一种解释,不能模棱两可、含糊其词。文字上也不应夸大,对尚不能完全肯定的内容注意留有余地。(八)致谢(Acknowledgment) 致谢语句可以放在正文后 (九)参考文献(Reference)专论正文部分引用的文献的标注方法可以采用顺序编码制,也可采用"著者-出版年"制。21、简要回答:三大检索工具SCI、Ei和ISTP的内涵。SCI是美国《科学引文索引》的英文简称,其全称为: Science Citation Index,它是世界三大检索系统(EI,SCI,ISTP)之一,是由美国科学情报研究所(Institute for Scientific Information,简称ISI)1961创立并出版的一部世界著名的期刊文献检索工具,它是根据现代情报学家加菲尔德(Engene Garfield)1953年提出的引文思想而创立的。 SCI中的所有论文都是从ISI巨大的自然科学资料库(SCI date base)中选取的,这个资料库的文献源主要是期刊。收录全世界出版的数、理、化、农、林、医、生命科学、天文、地理、环境、材料、工程技术等自然科学各学科。所选用的刊物来源于94个类、40多个国家、多种文字,这些国家主要有美国、英国、荷兰、德国、俄罗斯、法国、日本、加拿大等,也收录一定数量的中国刊物,并包括少量的专著。 EI《工程索引》(EngineeringIndex,EI),1884年创刊,由美国工程信息公司出版,报道工程技术各学科的期刊、会议论文、科技报告等文献。 ISTP《科技会议录索引》(Index to Scientific & TechnicalProceedings,ISTP),也是由ISI出版,1978年创刊,报导世界上每年召开的科技会议的会议论文22、科技报告的主要类型和特点?科技报告的主要类型:1) 按内容可分为:基础理论研究和工程技术两大类。 2) 按形式可分为:技术报告(Technical Reports, 简称TR)、技术札记(Technical Notes,简称TN)、技术论文(Technical Papers, 简称TP)、技术备忘录(Technical Memorandum,简称TM)、通报(Bulletin)、技术译文(Technical Translations, 简称TT)、合同户报告(Contractor Reports, 简称CR)、特种出版物(Special Publications, 简称SP)、其它(如:会议出版物、教学用出版物、参考出版物、专利申请说明书及统计资料)3)按研究进展程度可分为:初步报告(Primary Report)、进展报告(Progress Report)、中间报告(Interim Report)、终结报告(Final Report)。 4)按流通范围可分为:绝密报告(Top Secret Report)、机密报告(Secret Report)、秘密报告(Confidential Report)、非密限制发行报告(Restricted Report)、非密报告(Unclassified Report)、解密报告(Declassified Report)。属于保密的科技报告大多属于军事、国防工业和尖端技术成果。科技报告的特点 一 反映新的科技成果迅速:由于有专门的出版机构和发行渠道,科研成果通过科技报告的形式发表通常比期刊早一年左右。二 内容新颖、专深具体:科技报告报道的题目大都涉及尖端科学的最新研究成果,对问题研究的论述包括各种研究方案的选择和比较,各种可供参考的数据和图表、成功与失败的实践经验等,内容很具体。三 种类多、数量大:科技报告几乎涉及整个科学、技术领域以及社会科学、行为科学和部分人文科学。据统计,全世界每年出版的科技报告数量达100万件以上。其中,最多的是美国,约占5%,其次为英国,占5%,德国、法国各占5%。此外,日、苏、加等国也都有一定数量的科技报告。四 出版形式独特:每篇科技报告都是独立的、特定专题的技术文献,独自成册,以单行本形式出版发行。但是,同一单位、同一系统或同一类型的科技报告,都有连续编号,每篇报告一个号码。科技报告一般无固定出版周期,报告的页数多少不等,多至八、九百页,少至几页。除一部分技术报告可直接订购外,多数不公开发行23、所谓知识产权和专利文献?专利说明书的格式是什么?知识产权是指:公民或法人等主体依据法律的规定,对其从事智力创作或创新活动所产生的知识产品所享有的专有权利,又称为“智力成果权”、“无形财产权”,主要包括发明专利、商标以及工业品外观设计等方面组成的工业产权和自然科学、社会科学以及文学、音乐、戏剧、绘画、雕塑、摄影和电影摄影等方面的作品组成的版权(著作权)两部分。专利文献是包含已经申请或被确认为发现、发明、实用新型和工业品外观设计的研究、设计、开发和试验成果的有关资料,以及保护发明人、专利所有人及工业品外观设计和实用新型注册证书持有人权利的有关资料的已出版或未出版的文件(或摘要)的总称。格式:1、中国专利申请号,不加前缀CN,可以省略小数点后数字。2、中国专利公开( 公告)号,含前缀CN,不加最后一位类别码字母。以上格式与国家知识产权局专利网站完全一致。24、专利有哪几种类型?发明专利应具备的基本条件是什么?类型:分为发明专利,实用新型专利,外观专利三种发明专利应具备的基本条件是你申请的东西没有人申请过,市面上没有你要申请相类似的东西,必须是没有过的东西是新的东西25、有一个专利(专利号:ZLX),上网查一查。看能否获取全文。申请(专利)号:X大中小窗体顶端窗体底端 申请公开说明书 (15)页 审定授权说明书 (15)页 申 请 号: X 申 请 日: 24名 称: 一种便携式痕量元素智能分析仪 公 开 (公告) 号: CN1118067 公开(公告)日: 06 主 分 类 号: G01N27/27 分案原申请号: 分 类 号: G01N27/27 颁 证 日: 优 先 权: 申请(专利权)人: 中国地质大学(武汉) 地 址: 湖北省武汉市发 明 (设计)人: 李四福; 应晓建 国 际 申 请: 国 际 公 布: 进入国家日期: 专利 代理 机构: 中国地质大学(武汉)专利事务所 代 理 人: 吕建军 摘要 一种便携式痕量元素智能分析仪,它由单片机控制系统1、程控电压发生器2、恒电位器3、恒电流器4、前置放大器5、模/数转换电路6、电子开关电路7等组成。其特征是以单片机作为智能核心组成控制及测量系统,它还可以包括通讯电路8实现与PC机联机通讯,实现现场样品实时检测及分析,功能强,测量精度高(可达PPb级)。26、我校图书馆对特种科技文献有哪些数据库可供检索?万方CNKI 中国科技论文在线 维普中文科技期刊 慧科报刊库 超星数学图书馆 超星名师讲坛 新东方多媒体学习库 国道外文专题数据库 银符考试模拟题库27、说使用“逻辑与”可以缩小检索范围,而使用“逻辑或”可以扩大检索范围?A与B:同时具有A和B的内容 A或B:第一种情况是只具有A ;第二种情况是只具有B;第三种情况是同时具有A、B 所以说使用“逻辑与”可以缩小检索范围,而使用“逻辑或”可以扩大检索范围28、什么是查全率和查准率?怎样提高查全率和查准率?查全率——它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。 查准率——它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。 使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率,但查准率下降使用专指性较强的检索语言(如下位类、下位主题词)能提高查准率,但查全率下降。29、按照信息内容的加工深度和出版形式,文献有哪些类型?它们之间的关系是什么?按照文献的出版形式可以分为图书、期刊、报纸、特种文献(政府出版物、学位论文、科技报告、专利、标准、档案、会议文献、产品样本等)。 按照文献的载体形式,可以分为手写型文献、印刷型文献、缩微型文献、视听型文献与机读型文献。 关系
关于文献查找的过程一共有四条说明,同时还牵涉到一个文献取舍次序的问题,我们以中国知网为例演示一下文献查找的过程。第一条,使用中国知网的“高级搜索”。第二条,确定两个关键词。第三条,在搜集出来的文献中,根据文献的研究对象机研究问题的明确性、具体性等进行筛选,优先剔除“某某下”类文献,这类文献连看都不用看。第四条,根据保留下来的文献进行选题。在以上这些过程中会牵扯到文献的取舍问题,牵扯到的方面有很多,比如我们首先可以剔除哪些文献,然后根据明确性、具体性等可以一遍遍地筛选,还有很多其他方面的问题,我们不可能都涉及到,我们所涉及的主要是指出的这些内容。首先,从期刊论文、学位论文、会议论文等不同类型的论文上来讲,首先我们要保留期刊论文。反过来讲,我们首先要检索的是期刊论文,如果期刊论文的数量不够,再去关注其他类型的论文,比如我们检索出来的期刊论文只有一两篇,这时可以考虑学位论文和会议论文,考虑专业数据库里的一些内容,甚至是一些政策文件,包括一些印刷版的资料等,这些都可以参考。但我们第一步要做的就是先看期刊论文。那么,在期刊论文中也有优先次序,先看核心期刊里的论文,如果核心期刊里的论文数量不够,再去关注普通期刊里的论文;学位论文中要先看博士论文,如果期刊论文加上博士论文的数量还不够,再去关注硕士论文,这是不同类型的文献的一个取舍次序。很多人打开中国知网后,习惯性的就在首页搜索框里输上自己的东西,然后就开始找了,连“高级检索”都不点,你搜的到底是主题、关键词、篇名,还是全文都不关注,这样做的效率是非常低的。一个高效率的文献查找过程是怎样的?新版中国知网的网站上,在搜索按钮的右边有一个高级检索,我们点开高级检索,
(1)明确查找目的与要求。 (2)选择检索工具 (3)确定检索途径和方法 (4)根据文献线索,查阅原始文献
信息检索的基本步骤分别为课题分析、选择检索系统、抽取检索词、构造检索式、文献检索及检索式的调整和检索结果的处理。信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。
直接去看看(临床医学进展)上的文献吧
信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。
现代信息检索方法的探讨要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。
信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。
现代信息检索方法的探讨要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。
信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。