摘 要:摘要:网页爬虫是通过网页链接地址自动发现和采集网页的一个应用程序,它是自然语言处理技术的基础。随着藏文信息化的发展,藏文网页爬虫的设计和实现显得尤为重要。文章主要研究对藏文网页进行编码识别、网页抓取、编码转换为统一国际编码以及更新所收集的藏文文档,设计了藏文网页爬虫策略。
关键词:关键词: 藏文网页;编码识别;爬虫策略
中图分类号:TP391.1 文献标识码:A 文章编号:
0 引言
随着Internet的发展和广泛应用,人们获取信息的方式也从传统的书本转移到了网络,造成网络信息飞速增长,网页数量不断增加,人们如何有效的去发现我们所需要的信息,就成了一个关键的问题,这样就诞生了信息查找工具——搜索引擎。通过使用搜索引擎能够使人们比通过传统方式更迅速地找到信息、产品和服务。另外随着很多文字的分词技术的发展,机器翻译、文本分类、数据挖掘等技术也得到发展,这些技术的前提都要以网页的自动发现和采集技术为基础的。
1.藏文网页爬虫研究现状
经过藏文信息化建设,藏文网页也随之渐渐增多,获取藏文信息的范围越来越大,同中文发展一样,查找需要的信息难度也越来越大。作为对信息检索起很大作用的藏文搜索引擎至今没有发展起来。同汉文一样,基于藏文的页面爬虫是藏信息处理技术的基础。它通过网页相互的链接地址,从种子库开始对网页进行抓取和收集,最后去噪保存建立语料库,作为信息研究基础的原始语料。虽然中科院、西北民大等多家科研机构对这一技术都有所研究,但都处于研究阶段,描述这些藏文爬虫的文献非常少并且太过扼要,并且没有藏文网页自动发现与采集系统公布。造成这局面很大一个原因是藏文字符集国际标准发布较晚,并且基于藏文编码小字符集国际标准实现藏文显示相对复杂,之前研制的一批藏文软件都是各自定义一套编码,相互之间并无转换规则。这是藏文应用的前期技术研究难点之一,也是很多机构研究的热点。同时,对搜索引擎而言,及时搜集互联网中新出现和变化更新过的藏文网页也是核心工作之一。这样设计的爬虫系统要求具有页面更新与增量搜集的能力。
因此,我们对于一个未知编码的网页要想正确取得其内容,需要对其做出判断,通过HTML语言以及编码对其进行识别,以确定其是否是藏文网页,对识别出的藏文网页进行去噪保存,然后对文档进行编码转换,建立统一国际标准的藏文网页文档库。
2.藏文网页爬虫技术研究
2.1 藏文网页识别算法
互联网上国内网页是以汉文网页比例最高,也包含汉、藏、英、维等文字的网页,或者是几种文字混合的语言。如果网页爬虫不对网页进行分析和判断而全部采集,而收集系统很难简单通过关键词等信息来表达需要的信息,导致收集到的信息不合理,因此根据需求对符合条件的藏文网页进行识别和判定,进行一系列处理。
另一方面,由于藏文信息处理初期各自为阵的发展模式,不同的研究机构研究了不同藏文编码,在各种藏文编码中,国内的藏文网站大都采用了基于GB2312框架和基于Unicode标准的藏文编码,如同元编码、方正编码、华光编码、班智达编码、藏大岗杰等。国外的藏文网站大都采用了基于ASCII的藏文编码,如Sambhots LTibetan、Jamyang、TCRC等。本文采取藏文编码国际标准为统一的目标编码。在此,首先需要了解各种藏文编码的编码区域和编码框架,其次需要建立编码之间的映射关系,然后完成编码的转换问题。如图2。
图2 藏文编码转换器
2.5 藏文网页文档库建立
首先通过藏文网页识别器从互联网上抓取藏文网页,转存到本地机上;其次通过编码转换,对抓取到的藏文网页去噪后的文本进行编码的识别和转换,并转存为两种格式的文件,其中一种是提取网页中的文本进行txt方式存储,另一种是用可扩展标记语言XML作为文件信息存储格式,为建立基于网站的藏文网页语料库的建设一个完整的文档库,并为以后的藏文语义分析那块打下基础。
3.藏文网页爬虫设计方案
藏文网页爬虫器首选通过URL抓取器从WEB上下载网页,
在临时库中通过藏文识别器判断网页的语种属性,把藏文网页转到本地数据库中,并且判断是否有重复网页,若有,则丢弃。若有更新或新的网页,则去噪保存到数据库中。然后经过编码转换为统一的国际标准。最后通过文档解析器转换为xml文档结构。建立完整的藏文网页文档库。从整体上拟采用的研究方法和研究思路如图3所示。
图3 爬虫器整体设计
这样可以实现一个小型的藏文网页爬虫,在完善种库的情况下能查到比例较高的重要程序较大的网页。本爬虫使用Java语言实现,有很多包可以使用,整体设计功能完全能够实现。
4.总结和展望
本文提出了藏文网页识别算法和网页下载保存和URL库建立的实现,并设计了统一编码的藏文网页文档库的建立。此研究是藏文WEB应用的基础,开发出一个能识别国内大多数藏文编码的蜘蛛爬虫为藏文信息的前期研究工作,同时也为藏文语料库的建立、藏文搜索引擎、Web信息提取、藏文语义库建立等打好基础。而后续的基于Web的文档库的建立能为以后藏文文档分类、为藏文语料库建立和训练以及以后语义的分析等研究内容提供技术支持。
但是,由于藏文的研究较汉文晚很长时间,在研究过程中还是发现一些问题,(1)藏文网页抓取覆盖率问题。虽然大多数藏文网站相互之间有链接,还是存在不少孤立网站,没有链进也没有链出,仅靠手工把这些URL添加到库里,就会导致覆盖不全的问题,这是高效的爬虫器需要解决的问题。(2)编码转换算法还有一定局限。目前,采用HASH查找算法根据要转换的字符的编码值直接从对照表中查到其目标编码值是大家比较容易接受的较快的算法,有没有更快的算法还有待研究。
参考文献:
,西北民族学院学报(自然科学版),1999年03期.
基金项目:“2011年西藏自治区大学生创新性实验训练计划项目”阶段性成果,项目编号:1069411052。