摘 要:本文首先分析了互联网搜索引擎的现状,而后对垂直搜索引擎进行了系统设计,并阐述了系统实现的要点,最后对垂直搜索引擎的应用和特点做了总结,对读者了解垂直搜索引擎的概念和实现原理有一定现实意义。
关键词:垂直搜索引擎;构建
1 互联网搜索引擎现状
随着信息技术的迅猛发展,互联网信息呈爆炸式增长,随着这种增长,各种互联网搜索引擎横空出世,这些搜索引擎在一定程度上满足了人们对于海量信息的检索需求,然而其检索结果满足用户真正的检索需求并非易事。在这种情况下,各种搜索引擎通过不断改进检索技术来提高返回结果的精度,但由于搜索引擎自身的问题,其检索结果仍然令用户无法满意。主要表现为搜索结果数量大,结果不精确,大多有用的结果淹没在无用的结果中,为了解决这一问题,一些学者和技术人员提出了垂直搜索引擎的概念。
笔者认为,垂直搜索引擎就是将互联网上海量的非结构化的网页进行主题抓取,而后将网页的主要元素抽取进入数据库,使其成为结构化、专门化的数据以便于用户检索的一种搜索引擎,垂直搜索引擎相比传统的互联网搜索引擎,具有检索对象专一,检索结果准确深入等特点,本文将从简要介绍如何构建一个垂直搜索引擎。
2 系统设计
针对以上提到的传统搜索引擎的弊端和垂直搜索引擎的概念,笔者根据自身所理解的垂直搜索引擎的概念,设计了一个垂直搜索引擎系统的流程图,如下:
从图1可以看到,首先我们利用网络爬虫对互联网上的网页进行主题抓取,网络爬虫可以通过正则表达式对抓取目标进行主题限制,例如我们希望抽取医学相关的网页,那么我们则通过设置相关的医学主题词和相关的医学主题网站对抽取目标进行限制,,将所有含有医学主题的网页抓取到本地。
第二步我们通过对本地网页进行网页元素抽取将网页中的各个元素抽取到数据库中,抽取元素一般为网页标题、发布时间、发布者、网页正文等内容。通过以上两步操作我们即完成垂直搜索引擎基本数据的准备,之后所需要做的仅仅是对该数据库开发一个用户检索接口即可。
3 系统实现要点
3.1 网页主题抓取
网页主题抓取是本系统实现最重要的一环,基础数据质量好坏直接决定了整个搜索引擎检索结果的效果。本系统在比较分析了几款网络爬虫的基础上,利用C#语言实现了一个可以设置抓取站点并限制主题词进行抓取的网络爬虫,其实现关键点在于实现多线程对网页的循环抓取,如下图: