摘要随着网络信息时代的到来,信息检索处于一个互联的网络系统之中,用户、信息检索技术、信息资源构成信息检索三个基本要素。主要通过intemet搜索引擎来介绍信息检索技术。
关键词网络信息检索搜索引擎
一、前言
随着internet的迅速发展,网上信息正以爆炸性的速度增长,其资源内容几乎涉及所有领域,已经成为知识、信息的集合体,是人们获取信息的基本工具。在internet网上进行浏览和检索,就好比进入了世界上最大的图书馆,而这个图书馆里的书刊、杂志、广告、新闻及各种形式的文献信息全都没有规律地排放着,没有一个中心目录将这些信息组织起来。正是因为internet资源既丰富又分散且处于无序状态,使得人们在网上查找自己所需的信息并非易事。这时为满足人众信息检索的需求,搜索引擎便应运而生。搜索引擎是指使用某些自动索引软件来发现、收集网络上的信息,然后对收集的网页进行标引,建立一个可供查询的大型数据库。
intemet提供了多种不同的检索工具,它们各自有各自的数据库、语言、检索功能和显示方式,对用户来说,最重要的就是熟悉这些工具的性能,掌握检索技巧,提高检索的命中率。
二、搜索引擎的工作原理
搜索引擎的工作原理可以简单概括为:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。WWw.133229.cOM
从互联网上抓取网页利用能够从互联网上自动收集网页的spider(又名为:robot,crawler,worms,wanders)系统程序,自动访问互联网,并沿着任何网页中的所有url爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在url、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。说到这里,网络搜索引擎的基本工作原理基本上让大家了解了。
三、检索技巧
(一)科学选择关键词。由于搜索引擎智能化程度的影响,它只能在现存的数据库中查找匹配的关键词,因此,这种匹配相对比较盲目,我们在选择关键词时,要注意两方面的问题,才有可能得到较好的搜索效果。
(二)使用双引号进行精确查询。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。
(三)使用加号(+)、减号(一)限定查找。很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(一)限定搜索结果不能包含的词汇。
(四)灵活运用使用通配符。很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符。
(五)使用逻辑词辅助查找。比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:and(和)、or(或)、not(否)及near(两个单词的靠近程度),恰当应用它们可以使搜索结果非常精确。另外,也可以使用括号将搜索词分别组合,如[(新闻or足球)and米卢)not新闻”or足球)
(六)有针对性地选择搜索引擎。用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多的不同,比如:download.com是针对软件类的搜索引擎,可搜寻大量的自由软件和共享软件。驱动之家主要是提供查找驱动程序及硬件厂商信息。