网络信息检索的现状与发展1990年以前,网络信息检索的现状与发展没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg 等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展,那么这些检索工具的现状和发展趋势如何呢?本文将试作以探讨。1.基于网页的网络信息检索工具的现状和发展趋势现状。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3) 网络信息日新月异的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。发展趋势。网络信息检索工具的发展主要体现在进一步改进、完善检索工具和检索技术,以提高检索服务质量,改变网络信息检索不尽如意的地方。主要体现在以下几个方面:网络检索工具开发提供商之间合作越来越紧密。过去一般网络检索工具提供商只依靠自己建立的数据库来提供检索服务,检索范围有限,而现在某些著名的搜索引擎在购买其他公司的数据库或者技术内核,有的与其他搜索引擎建立伙伴关系,以便用户使用。比如著名雅虎现在采用的是Google的搜索内核,网易也曾经使用Google的搜索内核技术来丰富自己的搜索引擎数据库,硅谷动力、广州视窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了百度的搜索内核技术等等。信息检索工具专业化及服务内容深化。一些检索工具已经不再盲目追求加大收录和标引量,而更加注重突出专业特色。在lycos搜索引擎目录中,我们可以看到商业搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、医学搜索引擎等专业化的网络信息检索纷纷出现,信息检索工具的专业化已经成为一种不可逆转的趋势。信息检索服务商将服务更加深化:Google推出了网页引文查询服务,通过它可以查看自己所要查询的资料被其他网站引用的情况,从而使用户更好的把握网页信息的质量;2003年8月,第三代中文搜索引擎慧聪问世,它则集“广泛的地域搜索”、“强大的行业搜索”、“完美的MP3、Flash搜索”众多搜索功能为一体,还开发了“针对内容的相关性查询”和“符合汉语特性的模糊查询”,可以实现汉语拼音查询和同音词纠错。网络信息工具智能化的发展趋势:(1)信息检索工具的智能化首先是网络蜘蛛的智能化。针对网络信息的动态更替性,网络蜘蛛通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理的信息。网络蜘蛛能在网络的任何地方工作,能尽可能地挖掘和获得信息。网络蜘蛛还要有网页跟踪监测功能,如果网页出现更新、删除等情况要及时在数据库中更新。网络蜘蛛具有跨平台工作和处理多种混合文档结构的能力。(2)其次是检索软件的智能化。现在主要有智能搜索引擎、智能浏览器、智能代理。这些网络检索工具都非常重视开发实现基于自然语言形式的输入,检索者可以将自己的检索提问以及所习惯的短语、词组甚至句子等自然语言的形式输入,智能化的检索软件将能够自动分析,而后形成检索策略进行检索。比如现在的百度搜索可以在你输入关键词以后,不断提供一些相近的关键词供你选择,直至找到你所需要的结果。Google则借助于机器翻译技术,将一种自然语言转变成另外一种自然语言,使用户能够使用母语搜索非母语的网页,并以母语浏览搜索结果。尤里卡、问一问、和国外的ASK Jeeves则通过语义技术和检索技术的结合,可是实现检索工具对搜索词在语义层次上的理解,为用户提供最准确地检索服务。2.基于FTP文件的搜索工具。现状。如前所述,搜索引擎的雏形以及最早的搜索引擎都是基于FTP文件搜索的。最早的FTP搜索引擎是基于文本显示的Archie。后来由于WEB的出现,FTP搜索引擎发展受到了一定的影响。直到基于WEB的FTP搜索引擎出现,它才越来越多受到人们的欢迎,用户量也在迅速上升,重要性也日渐显现出来。FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表并向用户提供文件信息的查询服务。目前,国内做的最好的、规模最大的当属天网FTP文件搜索引擎,现在可以搜索2400万个文件(数据来源于天网主页),2002年时的统计日访问量是40万次,这在世界FTP搜索引擎界也算是一个佼佼者。另外国内还有清华9#搜索引擎、西安交大思源搜索、华南木棉搜索引擎、网络指南针、中科大天狼搜索引擎以及南京理工的“一网打尽”搜索引擎等等,国外的有、、、和等,其中是目前国外最先进的,支持包括站点快照和文件分类等新兴功能,而且文件数据量非常大。近几年来,虽然FTP搜索引擎技术发展的很快,但相对WWW搜索引擎而言,FTP搜索引擎为数不多,技术上也还不十分成熟,还有很多需要改进的地方:(1)FTP搜索引擎的收录数量还比较少,搜索引擎的规模和质量还是要取决于其维护的信息量。据统计,全球匿名FTP服务提供的文件条目已经有数亿条,即便是目前规模最大的,据陈华、李晓明2002年7月份统计也只有209,698,206 个文件。(2)检索功能还不完善。检索功能是一个搜索引擎最重要的部分,有很多搜索引擎还不能支持“and”和“or”等简单的布尔检索,使得数据库中的文件不能被检索到。(3)FTP服务器本身特点决定了FTP搜索引擎弱点,即由于FTP服务器有开放时间、有的还限制IP地址、有的限制登陆的用户量、不同的服务器设立的联接端口号并不相同等决定了其搜索到的结果有一部分是不能访问的,大大降低了用户的满意度。发展趋势。正如前文所述,FTP文件搜索引擎技术还不是很成熟,但其发展非常迅速,其发展趋势主要表现在以下几个方面:(1)检索功能日益丰富。天网FTP文件搜索引擎现在可以实现以文件大小、文件的上传日期、以及网段(比如说是华北网、华东网等)等多个条件的高级检索来限制检索结果;增加了检索方式(规则表达检索、准确检索、浏览、对大小写敏感与否等等),限制主机(是edu还是gov或者com等),文件类型以及文件大小、日期等功能。(2)检索服务的个性化。现在FTP搜索引擎研究者已经开始注意这一方面,天网ftp搜索引擎已经有了很多可以个性化的选项:可以设置用户不同偏好的排序方式,可以设定国外文件优先还是本国文件优先,对于国外用户是不是应该国外文件优先,是FTP上文件优先还是WWW上的文件优先,是选择中文的还是英文的等等。则是可以完成更丰富的个性化设置,比如说可以选择一个主机提供一个结果、设置语言、搜索的文件大小设置、是否亮度显示搜索关键词、设置使用者语言、以及键盘快捷键等等。3.基于网络检索工具的检索技术的现状和发展趋势。随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求(检索字串)等烦琐操作,基于网络检索工具的检索工具产生了。目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家”()、“网际瑞士军刀”()等。另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle(以上五个为2002年度的最佳元搜索引擎)等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。发展趋势。这类检索工具的发展趋势主要表现在下面几个方面:(1)检索结果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以实现搜索结果的自动分类,用户即可以利用传统的方式浏览结果,也可以利用其同屏的分类结果提示找寻自己需要的内容。EZ2WWW高级搜索功能提供1000多种专项资源检索,可进行目录检索。SurfWax有一个其它元搜索引擎没有的独特功能,即点击每条结果左边的“网址揿钮”图标,可浏览该结果包括的任何页面,并显示搜索语句在文件中的位置,也可以把搜索结果和文件存储起来以备后用。天网搜霸已经拥有了独特的链接检测功能,在几秒钟内检查当前页面查询结果是否可以访问,如果为标注绿色,则链接可连通(目前仅检测页面内以http://和ftp://开头的链接)(2)检索界面的个性化趋势。天网搜霸和Google提供了IE浏览器的插件,安装后就会被嵌到IE的工具栏,用户不用登陆天网的主页,就可以实现检索。用户可以将自己喜欢的搜索引擎设置为主要搜索,也可以添加用户自己喜欢的搜索引擎。天网搜霸不久前刚刚推出了可以嵌在Windows系统任务栏上的插件,现在用户连打开IE浏览器都不需要了。Mamma可以选择使用短语检索功能、设定检索时间、设定每页可显示记录数,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。MetaCrawler可以实现搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)个性化定制保存。(3)智能化。ProFusion可以自动实现符合特殊检索语法要求的转换,如在调用Excite、InfoSeek、WebCrawler时将“NEAR”转换成“AND”,在调用GoTo、Yahoo时将“NOT”删除等;Mamma也支持常用检索语法在不同搜索引擎中的转换;C4可以支持自然语言检索,虽然它没有自己的数据库,却可以提供网上的检索结果。
“信息资源共享”课程检索报告一 检索课题数字图书馆个性化服务研究现状二 主题分析随着数字图书馆建设和网络通讯技术的高速发展, 数字资源越来越多, 而人们获取所需资源的可能性则越来越少, 用户需求的专业化、垂直化激化了数字图书馆大量信息数据库与用户需求之间的矛盾。1999 年, 美国图书馆与信息技术联合会(LITA) 10 位著名的数字图书馆专家在研讨会上, 把个性化定制服务列为数字图书馆发展的7 大趋势之首。目前, 数字图书馆个性化的信息服务已经开始得到普遍的关注, 人们正在为提供个性化信息服务做出努力的尝试。数字图书馆个性化服务是近几年数字图书馆研究中受到关注较多的一个研究方向,数字图书馆个性化服务是基于信息用户的信息使用行为,习惯,偏好,特点及用户特定的需求,来向用户提供满足其个性化需求的信息内容和系统功能的一种服务。关于数字图书馆个性化服务研究现状,该主题涉及到:(1)数字图书馆个性化服务的有哪些介绍(2)数字图书馆个性化服务的模式有什么(3)数字图书馆个性化服务的技术研究有哪些(4)数字图书馆个性化服务研究的最新进展(2005年-2007年)三 检索情况(一)检索工具1.维普中文期刊数据库 (1989-2007)2.中国期刊全文数据库 (1994-2007)(二)检索过程1.检索途径 关键词 题名 主题词2.检索用词 数字图书馆 关键词或题名、主题词 个性化服务 关键词或题名、主题词3.检索策略(1)维普中文期刊数据库(题名或关键词=数字图书馆)*(题名或关键词=个性化服务) 在高级检索中选择题名或关键词字段,输入“数字图书馆”和“个性化服务”两个检索词进行限定,年代限定在2005-2007年,共检索出78条记录。(2)中国期刊全文数据库(题名或关键词=数字图书馆)* (题名或关键词=数字图书馆)在高级检索中选择篇名字段,输入“数字图书馆”与“个性化服务”,年代限定在2005-2007,共检出89条记录。四 检索结果分析(一) 检索结果经检索上述两个数据库,有关数字图书馆个性化服务的研究论文众多,现选出其中具有代表性,研究主题未重复的文献。1.中国期刊全文数据库(1) 数字图书馆个性化信息服务系统研究 刘燕平 图书情报工作 2006/S2(2) 数字图书馆个性化服务系统分类体系问题 叶红 科技信息(学术研究) 2007年13期(3) 浅析智能搜索引擎技术及其在数字图书馆个性化信息服务中的应用 王林廷 高校图书情报论坛 2006年01期(4)数据挖掘技术在数字图书馆个性化服务中的应用 朱冰冰 科技情报开发与经济 2006年24期(5)数字图书馆个性化信息服务发展研究 马维华 郑州大学学报(哲学社会科学版) 2006年06期(6) 智能推送技术在数字图书馆个性化服务中的应用 石岩 情报探索 2006年11期(7) 基于文本过滤的数字图书馆个性化服务技术 张帆 计算机工程与应用 2006年31期(8) 数字图书馆信息门户的个性化服务模式 何平 中国信息导报 2006年08期(9) 网络信息技术下的数字图书馆个性化服务 张丹 林区教学 2006年07期(10)MyLibrary——数字图书馆个性化服务新趋势 杨华 农业图书情报学刊 2006年08期(11)基于Web服务组合的数字图书馆个性化动态定制服务构建 张晓青 情报学报 2006年03期(12)校园网中数字化图书馆个性化服务的实现 朱江峰 科技经济市场 2006年01期(13)数字图书馆的个性化推送服务 白雪松 图书馆杂志 2005年09期(14)Web日志挖掘在数字图书馆个性化服务中的应用 王英培 科技情报开发与经济 2005年22期(15)国内外数字图书馆个性化信息服务系统的功能与特征比较研究 张俊 情报理论与实践 2005年06期(16)基于知识管理的数字图书馆个性化服务机制研究 郭琳 四川图书馆学报 2004年05期2.维普中文期刊数据库(17)基于Web挖掘的数字图书馆个性化技术研究 王艳 张帆 情报杂志 2007年1期(18)基于文本过滤的数字图书馆个性化服务技术 张帆 杨炳儒 计算机工程与应用 2006年31期(19) 数字图书馆信息门户的个性化服务模式 何平 陈有志 中国信息导报 2006年8期(20)个性化服务深度与广度解决方式探讨 刘月胜 数字图书馆论坛 2006年6期(21)个人数字图书馆模式的分析 石德万 李军 现代情报 2005年9期(22)数字图书馆个性化信息环境与服务构建 杜安平 韶关学院学报 2005年3期(23)数字图书馆个性化信息服务的技术实现 张云瑾 许春漫 农业图书情报学刊 2005年6期(24)个性化信息服务的模式研究及策略分析 杜春光 国家图书馆学刊 2005年2期(二) 检索结论文献一论述了个性化信息服务的涵义,阐述数字图书馆开展个性化信息服务的有利条件,国内外图书馆的有关研究开发状况,分析国内数字图书馆个性化信息服务系统应用实例,并时其工作流程,主要功能进行剖析,指出该系统目前存在的问题,提出改进对策。文献二围绕数字图书馆个性化服务系统分类体系问题展开探讨。首先,简要介绍数字图书馆个性化服务系统的主要内容,包括其定义和服务内容。其次,从用户分类和信息分类两个方面阐述目前数字图书馆个性化服务系统存在的问题。用户分类主要存在的两个问题,根据用户特点分析提出相应建议。信息分类问题从五个方面进行讨论,列举数字图书馆个性化服务系统页面进行分析,提出解决方法。文献三介绍了智能信息检索的实质和发展方向,是智能搜索引擎技术的不断改进和广泛应用。以这一技术为基础构建数字图书馆的个性化服务系统,是数字图书馆信息服务的现实需要。文章论述了当前搜索引擎存在的不足,概述了智能搜索引擎的原理机制及其优越性,探讨了该技术在数字图书馆个性化服务中的应用。文献四阐述了数字图书馆的定义,介绍了个性化服务的工作原理和国内外个性化服务系统的现状,探讨了分类模型、关联模型、序列模型、聚类模型、回归模型以及时间序列模型的原理,对如何把其用在数字图书馆的个性化服务上以描述用户需求,提出了建议。文献五介绍了数字图书馆个性化信息服务是当今图书馆发展的重要趋势,目前国内外都已有比较成熟的数字图书馆个性化信息服务系统,服务方式及其功能也多种多样,但是探索图书馆个性化信息服务有效模式的任务仍很艰巨。文献六介绍了智能推送技术和个性化服务的内容,讨论了将智能推送技术应用于数字图书馆个性化服务,以及智能推送技术存在的优势与不足。文献七提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献八试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展建势。文献九简述了数字图书馆个性化服务的内涵,分析了网络信息技术对其各项服务的支撑,并通过My Library实例对这些具体技术的集成化运用加以探讨,为构建可互操作的数字图书馆个性化服务系统提供参考。文献十就My Library(我的图书馆)的产生,及其概念、类型、特征、原理、功能等诸方面做了简要的论述,并介绍了它在国内外的发展现状,指出其今后的发展方向。文献十一介绍了Web服务组合是一种利用现有Web服务动态构建新的能满足用户需求的复杂Web服务的Web服务技术。将数字图书馆各种资源组件、应用组件、功能组件和管理组件进行Web服务描述,人们就能利用Web服务组合技术根据用户的个性化需求实现对不同数字图书馆各种组件的动态集成,从而实现开放环境下数字图书馆的个性化动态定制服务。本文讨论了基于Web服务组合的数字图书馆个性化动态定制服务的基本系统架构、构建模型,并对构建过程中需要注意的几个问题展开了讨论。文献十二介绍了数字化图书馆建设是图书信息化发展的必然,而个性化服务能够根据用户不同的特点,提供切实的服务,以更好地为读者服务。本文对数字化图书馆的个性化服务进行了讨论,分析了关键的实现技术,并给出了部分核心代码。文献十三介绍了个性化推送服务是数字图书馆研究的热点,也是建设数字图书馆的关键问题之一。本文针对各种不同的信息形式提出了相应的实现方案,并对实际操作中的几个难点事项做了简要讨论。文献十四介绍了Web日志挖掘的基本概念和过程,指出通过对读者在数字图书馆服务中留下的日志信息进行挖掘,可以实现个性化服务,更好地满足不同类别读者的需求。文献十五从个性化信息服务的概念入手,介绍了个性化信息服务的几种类型,包括分类定制服务、信息推送服务、智能代理服务和垂直门户服务等,并介绍了目前国内外若干图书馆已经开展的个性化信息服务的典型应用实例。在此基础上总结了这些个性化信息服务系统的共同功能与特征,并进行了一些比较研究。文献十六介绍了构建一个基于信息过滤技术的信息服务系统是数字图书馆实现个性化信息服务的有效手段。通过对信息过滤技术概念的研究和与信息检索概念的比较,抽象出此类系统的一般模型,并沿用查全率和查准率评价信息过滤的效果,最后分析了个性化信息服务系统实现的关键技术。文献十七提出一种基于Web挖掘技术的个性化实现策略,针对数字图书馆资源的文献,改进了经典的算法,分别从Web内容挖掘、结构挖掘和日志挖掘出发,建立用户动态的兴趣特征模型,使之更具有实用性和针对性。文献十八提出在数字图书馆的应用中,个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献十九试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展趋势。文献二十提出数字图书馆的个性化服务决定了它在借助网络技术的基础上向学科馆和联盟制方向发展,以提高资源的利用率和解决个性化服务的深度与广度问题。文献二十一根据个人数字图书馆文献信息资源存储位置的不同.把个人数字图书馆划分为远程个人数字图书馆和本地个人数字图书馆两种模式,着重对这两种模式的个人数字图书馆的功能特点进行比较分析。文献二十二提出构建数字图书馆的个性化信息服务实际上就是要在数字图书馆上实现个性化资料、个性化检索、个性化过滤、个性化服务等四种环境.数字图书馆可以开发个人图书馆、检索帮助、个性化信息咨询、信息代理、垂直门户等多种个性化信息服务。文献二十三阐述了数字图书馆个性化信息服务的概念、研究与应用的现状,并分析了实现数字图书馆个性化信息服务所需的技术。文献二十四强调个性化信息服务在数字图书馆中有其特定的定义,也是数字图书馆发展中的必需。根据网络环境下图书馆信息服务的内容及用户行为的不同,可以有多种个性化服务模式,有策略地开展服务。(三) 结果分析 从2005-2007年所发表的关于图书馆学个性化服务的论文可以看出,研究的主题和方向主要集中在以下几个方面:1. 数字图书馆个性化服务的概念研究。在中国期刊全文数据库检索到的89篇文章中,有40篇是论述图书馆个性化服务概念的研究。在这些文章中作者都对数字图书馆个性化服务概念有自己的认识,对于这个概念的研究也越来越深入。2. 数字图书馆个性化服务的方式研究。对于数字图书馆个性化信息服务模式, 也在摸索实践中。目前有以下几种方式:(1)信息分类定制服务方式。分定制是指信息用户可以按照自己的目的和需求,在某一特定的系统功能和服务形式中,自己设定信息的资源类型、表现形式,选取特定的系统服务功能等。(2)信息推送服务方式。是运用推送技术(push technology)来实现的一种个性化主动信息服务的方式。(3)信息智能代理服务方式。它是一种能够完成委托任务的计算机系统,能模仿人的行为执行一定的任务,不需要或很少需要用户的干预和指导。通过跟踪用户在信息空间中的活动,自动捕捉用户的兴趣爱好,主动搜索可能引起用户兴趣的信息并提供给用户。(4)信息垂直门户服务方式。通过汇聚网上某一特定专题信息资源并对其进行挖掘及加工,以满足用户基于专业的深入的信息需求。(5)信息帮助检索服务方式。如何帮助用户进行高效的信息检索也是当今数字图书馆信息服务向纵深发展的一个重要内容。(6)数据挖掘服务方式。从数据库中发掘人们感兴趣的知识,这些知识是隐含的、潜在的,目的是帮助用户寻找数据间潜在的关联。(7)信息呼叫中心服务方式。主要利用电话、传真等方式来服务客户,处理简单的呼叫流程。在这些方式中,现在比较热门的个人图书馆(My library)是上述部分个性化服务方式的具体应用,是当前开发应用较为成熟的图书馆个性化服务模式系统,也是一个完全个性化的私人信息空间。3.数字图书馆个性化服务关键技术研究。数字图书馆个性化信息服务的应用技术, 集现代信息技术之大成。它包括推送技术、智能代理技术、智能搜索引擎技术、网页动态生成技术、数据挖掘技术、信息过滤技术、过程跟踪技术、安全身份认证技术、数据加密技术等, 这些都可以为数字图书馆的个性化服务方式提供技术支持。4.国内外数字图书馆个性化服务现状研究。还有一部分论文是主要介绍当今国内外数字图书馆个性化服务的现状,通过介绍这些先进的技术和模式来指导我国数字图书馆个性化的服务。5.其他研究。除了数字图书馆个性化信息服务的概念、模式、技术和国内外研究现状外, 数字图书馆个性化信息服务的研究还就数字图书馆个性化信息服务的模型构建、用户评价、馆员角色的变化、存在的问题与对策等作了深入探讨。综上所述,这两年国内有关数字图书馆个性化服务的研究可谓是硕果累累,随着对数字图书馆个性化信息服务理论研究和实践的不断深入,我国数字图书馆个性化信息服务一定能够真正实现以用户需求为中心, 利用数字图书馆信息资源开展不同层次的、多种类型的、满足用户个性需求的有效信息服务。五 检索情况总结由于这个学期开了数字图书馆这门课,对于数字图书馆有一些简单的了解,特别是对个性化信息服务这部分内容有兴趣,课本上涉及得比较少,所以就把这个内容作为了检索主题。在选择检索工具时选择了平时最常用的两个检索工具,本来还选用了中文Google,想找一下国内在研究这个主题的项目或者网站,但是检索到的内容数量实在太庞大,而且检索到的大量结果都来自各个数据库的论文,最后就放弃了使用搜索引擎。在构造检索策略时,因为该主题比较简单,不用构造很复杂的检索式,就选择了“数字图书馆”和“个性化服务”作为关键词,开始有想到是不是需要使用与“数字图书馆”概念相近的“电子图书馆”或者“虚拟图书馆”,但考虑到国内现在已经比较统一的使用“数字图书馆”这个概念,使用其他两个词检索到的文章不多,所以还是以数字图书馆为重点。检索途径选择了关键词,题名以及主题词,在使用中国期刊全文数据库进行检索时,一开始是使用关键词作为检索途径,检索出423条记录,但是有很多文章与该主题相关度不高,所以采用了篇名作为检索途径,这样两个词同时限定在文章题名中,检索的相关度就非常高,但也可能会造成漏检。觉得自从学习检索课程以来,检索最难的就是检索式的构造,检索式构造的好与坏,直接关系到检索结果的好坏。维普提供的字段有题名或关键词字段,使用高级检索将两个检索词都限定在这个字段中,检索出来的结果相对比较精确。检索完成之后,接下来的工作就是分析检索结果,这其实也是难度挺大的一项任务,要看完150几篇文章不是一件简单的事,文摘和篇名这个时候就帮了很大的忙了,一般看文摘可以略知一二,需要了解详细内容的再打开全文阅览。从文章中归纳出研究的主要内容和方向,找出比较有特色而又不重复的内容,最后再整理出结论,这就是我整个辛苦但却有趣的检索过程。通过完成这次作业,首先就是复习与巩固了以往的知识,平时虽然也经常在进行检索,但是严格按照检索步骤进行的就不太多,也没有这么有条理的对整个检索过程做一个安排,并按照计划一步一步的执行,直到完成检索结果。其次就是以往做作业都是完成老师布置的具体任务,有些题目比较简单或是比较有兴趣的检索起来还好,有些比较深奥的主题做起来真的十分困难,没有专业背景,拿到题目和检索出来的结果就觉得十分茫然。而这次老师让我们自己选择题目,我就可以从自己的兴趣和想了解的领域下手,这样完成作业的过程也不再那么枯燥,兴致自然也大了很多。还有最重要的是,做作业的目的不只是完成作业,更重要的是有收获,巩固了检索知识自不用说,通过这次阅读大量文章,也算对所检索的主题有了一个大概的认识和了解,增长了知识,开阔了视野,可是说从完成这次检索作业中的确是收获不少。
网络信息检索的现状与发展1990年以前,网络信息检索的现状与发展没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alannbsp;Emtage等人发明的Archie开始的,虽然它当时只可以实现简单意义上的FTP文件检索。随着Worldnbsp;Widenbsp;Web的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Ericnbsp;Selbergnbsp;等发明。伴随着网络技术的发展,网络信息检索工具也取得了十足的发展,那么这些检索工具的现状和发展趋势如何呢?本文将试作以探讨。1.基于网页的网络信息检索工具的现状和发展趋势现状。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3)nbsp;网络信息日新月异的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。发展趋势。网络信息检索工具的发展主要体现在进一步改进、完善检索工具和检索技术,以提高检索服务质量,改变网络信息检索不尽如意的地方。主要体现在以下几个方面:网络检索工具开发提供商之间合作越来越紧密。过去一般网络检索工具提供商只依靠自己建立的数据库来提供检索服务,检索范围有限,而现在某些著名的搜索引擎在购买其他公司的数据库或者技术内核,有的与其他搜索引擎建立伙伴关系,以便用户使用。比如著名雅虎现在采用的是Google的搜索内核,网易也曾经使用Google的搜索内核技术来丰富自己的搜索引擎数据库,硅谷动力、广州视窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了百度的搜索内核技术等等。信息检索工具专业化及服务内容深化。一些检索工具已经不再盲目追求加大收录和标引量,而更加注重突出专业特色。在lycos搜索引擎目录中,我们可以看到商业搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、医学搜索引擎等专业化的网络信息检索纷纷出现,信息检索工具的专业化已经成为一种不可逆转的趋势。信息检索服务商将服务更加深化:Google推出了网页引文查询服务,通过它可以查看自己所要查询的资料被其他网站引用的情况,从而使用户更好的把握网页信息的质量;2003年8月,第三代中文搜索引擎慧聪问世,它则集“广泛的地域搜索”、“强大的行业搜索”、“完美的MP3、Flash搜索”众多搜索功能为一体,还开发了“针对内容的相关性查询”和“符合汉语特性的模糊查询”,可以实现汉语拼音查询和同音词纠错。nbsp;网络信息工具智能化的发展趋势:(1)信息检索工具的智能化首先是网络蜘蛛的智能化。针对网络信息的动态更替性,网络蜘蛛通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理的信息。网络蜘蛛能在网络的任何地方工作,能尽可能地挖掘和获得信息。网络蜘蛛还要有网页跟踪监测功能,如果网页出现更新、删除等情况要及时在数据库中更新。网络蜘蛛具有跨平台工作和处理多种混
308 浏览 4 回答
124 浏览 3 回答
272 浏览 3 回答
196 浏览 4 回答
215 浏览 2 回答
163 浏览 3 回答
135 浏览 4 回答
112 浏览 4 回答
196 浏览 4 回答
305 浏览 2 回答
345 浏览 3 回答
300 浏览 3 回答
289 浏览 3 回答
184 浏览 3 回答
280 浏览 3 回答