您当前的位置:首页 > 计算机论文>智能科技论文

基于Java的垂直搜索引擎的设计方式探讨

2015-07-13 15:05 来源:学术参考网 作者:未知

  摘要:在互联网时代,随着信息量的不断膨胀,搜索引擎在计算机技术不断发展的局势下,受到了更多的挑战。本文就搜索引擎的发展历程及结构原理进行了介绍,重点提出如何利用Java语言对垂直搜索引擎进行设计方案的构建。 
  关键词:Java;垂直搜索引擎;方案构建 
  伴随着21世纪互联网技术的炽热化的发展进程人们对互联网应用范围的扩展也提出了新的要求,现有引擎虽然信息面广,但更像大染缸,信息杂糅,只有快速的找到关键词才能比较迅速的找到自己想要的信息大概范围,经过浏览确定最终目标,人们更需要一种专业化的引擎,于是我们想到了垂直搜索引擎。 
  一、搜索引擎的发展历程 
  20世纪90年代,WWW还没有出现,文件传输已经比较普遍,但查询不便,所以lan Emtage想到了以一种通过文件名查询文件的方法,即搜索引擎的雏形,它以脚本程序为基础,供使用者查找文件。在lan Emtage的启发下,美国的System Computing Services大学开发了具有搜索网页功能的Veronica,网页的搜索开始发展。 
  纵观搜索引擎的发展历程,可分为四个阶段。1994年的IR基本实现了在Web网页上的检索,由于可供用的网站也少且费时,很快被第二代搜索引擎代替,第二代搜索引擎主要表现为数据库和网络蜘蛛的分布式两种。第三代已进入人工智能时代,搜索引擎空前繁荣,加入了地域搜索和主题搜索、超链接以及用户记录,自动分类技术已有渗透。第四代搜索引擎即垂直搜索引擎,其专业化程度相较于之前有了很大的提高,出现了专门针对某一行业的主题信息的搜索。 
  二、垂直搜索引擎 
  垂直搜索引擎的出现改变了原来搜索引擎查询深度不足、信息量太、查询精度低的问题,对某一行业、某一人群的不同需求来对信息进行筛选然后提供给他们搜索更加有序具体,缩小了搜索范围但提高了精度,节约了用户的时间。比如对于经常浏览杂志页面的用户,他可能会有订阅杂志的意愿,那就需要对相关杂志有更详细的介绍,包括里面的排版特点、主要内容等。尤其对于电子行业的用户来说,其需求更加明确所以就需要更加详细的信息予以支持,针对这种非常具体需求而出现的搜索引擎就是垂直搜索。 
  作为一种更详细具体的搜索引擎,其专业化服务质量的审核标准主要决定于web结构信息抽取的技术的高低,由于垂直搜索引擎属于新兴技术,仍然处于探索阶段,这是不可否认的。已经存在的垂直搜索引擎主要有:旅游类的去哪儿网、征程网等,招聘类的智联,娱乐类的搜狐、乐视等。 
  垂直搜索引擎相比于通用的搜索引擎具有很多的优势:行业色彩更浓,专注于某一主题的服务,所以提供的信息更加详细具体而有针对性;引擎的开发在于为专门的用户提供专门的服务,因为专注,所以高效;以元数据和结构化数据为搜索基础,关键词的提取相对要容易一些。 
  当然,缺陷也是不能忽略的,比如种子站点的掌控难,只有经过准去的判断才能够找到目的网站;技术难度比较高;信息的提供专业但是单一。 
  三、基于Java的垂直搜索引擎的设计 
  手机作为与人们生活息息相关的电子产品,在人们的引擎搜索中往往被格外关注,本文以手机为对象,探讨基于Java的垂直搜索引擎的设计。 
  1、引擎设计前的需求分析 
  经过对各大手机门户网站进行浏览分析后,需要建立一个具有垂直搜索引擎功能的模拟系统,供用户搜索,具体来讲,需要涉及到一下方面。 
  一是手机相关信息的搜索与显示,这是一个直至搜索引擎最基本的功能,通过操作界面的指令的发送,后台开始操作,找到相关的信息后通过界面显示的形式反馈给用户,点击进入后就可以看到需要的信息,不会出现与搜索内容无关的消息。 
  二是信息自动采集功能。通过垂直搜索引擎找到与搜索信息有相似特点的信息,并加以保存分析提取整理存入数据库。 
  2、设计思路 
  本次研究基于Eclipse3.1+MySQL5.0+Tomcat5.5 环境,其良好的开发性有助于Java语言的开发性能的发挥,在构建web时需要使用PluginV3插件,用到的已开发程序包和检索工具包包括Heritrix1.12.1和Lucene2.0。 
  3、网页信息的抓取 
  首先需要获得更多的手机相关信息,利用蜘蛛程序爬行网页对各大网站的信息进行收集分析和整理,选择获取信息的网站的前提是浏览量大,信息完备,以便于搜索涵盖几乎所有手机的信息。 
  此外还要对网页的结构以及URL特点进行分析,目的在于对蜘蛛获得信息进行进一步的过滤,将与产品无关的资料去掉。 
  4、网页机构化的抽取 
  在网页被抓取后并不能直接使用,而是需要经过进一步的筛选将有用信息保存下来,一般为了方便数据的入库都会将其以文本形式保存,这一步的信息处理是建立引擎的关键,工作相对繁琐一些。 
  5、建立索引 
  待前边的准备工作都完成后,即开始引擎搜索的建立,主要是通过代码的编写将获得的信息导入到每款手机特定的文件中,然后放入数据库等待用户搜索。 
  结束语 
  在互联网时代,信息量的日与剧增促使人们对信息的搜索提出了更专业化的要求,作为搜索引擎的辅助型工具,垂直搜索引擎的确在互联网中法糊了不可替代的作用,我们也将加大对其研究的力度,努力让其在每一个领域都能够提供服务,本文的研究将为这一伟大设想提供参考。 
  参考文献   [本文由wWw. DYLw.Net提供,第 一论文 网专业写作教育教学论文和本科毕业 论文以及发表论文服务,欢迎光临DYlw.nET]
  [1]潘春华,常敏,武港山.面向Web的信息收集工具的设计与开发[J].计算机应用研究,2012(16). 

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页