经过上面对网络爬虫系统相关技术背景的介绍之后,接下来就是要根据需求分析的结果来完成对本文的网络爬虫系统的总体设计了。在这一章开始部分,给出了分布式爬虫系统的需求分析,这些需求有爬虫要爬去的目标网页、要求以及单位自身的要求。然后,在Hadoop分布式系统架构的技术基础之上,对爬虫系统进行了总体上的了解,明确了爬虫系统对于跨语言搜索的重要作用。另外,对系统的总体结构和功能模块进行了设计,给出了流程图。本章的最后详细介绍了每个功能模块的具体结构,并指出实现方法。 需求分析本系统是单位关于分布式跨语言搜索项目的一个子项目。这个分布式跨语言搜索项目主要包含两个部分:一是数据获得部分;二是信息搜索部分。文章主要负责数据信息的获取工作。在详细讲解本章内容之前,先介绍一下项目相关的背景。本项目简单说来就是要实现输入某种语言的关键字,然后查找出该关键字相关多种语言的信息,当前该项目的进展是已经可以搜索出27种语言的信息。其中包括中、日、英、德、法、俄等适用范围较广的主流语言,也包括像蒙古语、越南语、印地语等等小范围使用的语言。同时,该分布式跨语言搜索项目在搜索的时候主要对这27种语言相关的新闻信息进行检索。最后,这个分布式跨语言搜索项目中明确规定,不管是网络爬虫系统还是信息搜索系统都必须使用分布式结构。 功能需求分析因为本系统是分布式跨语言搜索项目的一个子小木,因此在介绍它之前我们先大致了解一下跨语言搜索项目的总体布局。通过这个小结的讲解,能够从整体上认识分布式网络爬虫系统,了解该系统的整体模块设计以及了解该系统在整个项目中的重要性,从而更好地进行需求分析。同时,还可以了解爬虫系统要实现的目的和要做的工作,为后续索引工作打下基础。分布式跨语言搜索项目用到的框架是现在应用很广泛的Hadoop分布式系统框架。根据前面章节的介绍,我们知道Hadoop其实是基于云计算的一个框架,主要由HDFS和Map/Reduce模型这两块组成,使用者在使用这一框架的时候不需要知道底层实现过程,因而开发程序更加便利。本分布式跨语言搜索项目的功能模块大致有5块,各个功能模块都有其相应的Map/Reduce计算模型。模块包括:爬虫系统、分析、索引、搜索以及查询这五大模块,特别之处的是,这五个模块必须都是采用分布式技术的。而本文正是要探讨如何利用分布式技术来实现网络爬虫系统。图3-1展示的是该项目的功能模块划分图。更加具体的可以私信我……