基于电子商务网站的ＷＥＢ内容挖掘

[摘要] 随着网络技术的迅速发展，电子商务行业正处以一个高速发展的时期，各类商务网站也应运而生。如何从繁多的商务网站数据中获得有用的信息就成了一件亟需解决的问题。本文分析了web内容挖掘在电子商务网站中的应用以及如何获得数据源。
　　[关键词] 电子商务网站 web内容挖掘数据源
　　
　　一、引言
　　对于电子商务网站来说，internet上储存了大量的文档、图像、声音等非结构化的数据及信息，并且用户群体也显示出多样性，也就是说每个浏览网站的人，他们的需求、兴趣以及浏览目的各不相同。一个稍具规模的电子商务网站每天处理的业务成千上万，那么如何从这些数据中找到有用的信息，帮助电子商务的经营者和研究者从海量的web数据中得到真正有价值的信息，以指导他们做出管理上的决策。就是一个非常重要而有意义的事情。
　　二、爬虫和web内容挖掘
　　1.web挖掘的典型分类
　　在目前的研究中， web数据挖掘分为:web内容挖掘（web content mining）、web使用(访问信息)挖掘（web usage mining）、web结构挖掘(web structure mining）三种典型的类型。
　　(1)web内容挖掘主要是对站点的web页面内容进行挖掘。目前，大多数研究主要集中在如何对网站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性，很少涉及到如何从网站上进行数据的采集以及分析。
　　(2)web结构挖掘主要是对web文档的结构进行挖掘，通过一定的算法来发现给定的web文档之间的链接情况，从而得到比较重要的页面，以向浏览网站的用户提供权威页面。WwW.133229.COM
　　(3)web使用(访问信息)挖掘主要是对用户访问web时在服务器方留下的访问记录,也就是用户访问web站点的存取方式进行挖掘。它通过挖掘相关的web日志记录，来发现用户访问web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。
　　2.web挖掘的数据源
　　在web数据挖掘中存在几种代表性的数据源：
　　（1)服务器日志数据。个人浏览web服务器时,在服务器那方就会产生3种类型的日志文件:server logs,error logs和cookie logs,这些日志文件主要是用来保存用户访问的基本情况。所以就成为开展web使用(访问信息)挖掘的主要数据源。但有一点需要注意的是,这些数据是在服务器方生成的,因此有一定的不可获取性,因为这会涉及到商业机密。
　　（2)在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据,是进行业务相关分析的主要数据源。
　　（3)web页面。目前的web页面大多满足html标准。html页面中包含文本和多媒体信息,例如图片、图像、语言等，因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘,目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。
　　（4)web页面超链接关系。web页面之间的超链接关系是一种重要的资源，网站的设计者总是把他们认为重要的页面添加到自己的页面上来。
　　（5)其他数据。除了上述几种重要的数据源外，还有一些其他方面的数据，比如用户注册信息等一系列信息。
　　当然，在实际的web数据挖掘中这些数据源并不是孤立使用的，而是几种数据源的综合使用和分析，例如我们要对访问某个电子商务网站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。

　　3.爬虫和web内容挖掘
　　由于上述的几种数据源中有一些是在服务器方生成的,比如说日志文件和用户注册信息,并且涉及到商业机密问题,所以在数据源的获得上存在一定的难度。这里,我们可以利用爬虫(crawler)的工作原理,来作为我们进行web内容挖掘的一种信息获取和分析的工具,得到我们需要的数据源。
　　（1)爬虫的工作原理。爬虫(crawler）是一个用来分解web中超文本结构的工具。一个商业网站的web页面是通过超链接的关系存在的,就组成了类似一张张的网。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始，读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。
　　（2)数据的获得。我们就可以利用上述爬虫的工作原理，从我们需要的信息起始页开始进行爬取数据，得到与之有关的大多数web页面上的信息。
　　（3)数据的分析。在对链接页面进行搜索的过程中，经常需要判断信息的属性或分析信息的价值，因为web页面上存储了浩瀚的数据，比如一些广告信息，而有的数据并不是我们需要的。在此，我们可以利用基于正则表达式(regular expression)的词法分析技术对采集到的html代码进行语法分析，提取其中有效信息，例如出售的商品分类、规格、价格、数量、运送方式、运费、出售人、曾经购买过的用户等。
　　（4)数据的保存。为了进行最终的挖掘工作，我们需要把经过分析的有效数据最终保存到数据库当中。一般选择大型的数据库管理工具，如sql server2005等。
　　（5)进行挖掘。利用数据挖掘技术获取有效的信息，对相关问题模式进行验证。
　　三、结束语
　　电子商务网站，无论是b/c模式还是c/c的，在网站页面上都保存了大量用户在交易过程中产生的信息，例如商品的规格、价格、展示、售后服务以及运输方式等等，还包括卖家的个人信息、信用情况，根据平台的不同还有相应的支付方式、法律条款等等。那么，利用爬虫技术，我们可以开发出一个获得数据源的有效工具来进行web内容挖掘。
　　当然，在现实研究当中,web内容挖掘是和web结构挖掘及web访问信息挖掘结合在一起使用的,它们相互补充，共同来挖掘出有用的信息。
　　
　　参考文献:
　　[1]梁协雄雷汝焕曹长修:现代数据挖掘技术研究进展.重庆大学学报,2004.3:p.21～26
　　[2]吴修琴:基于web使用挖掘的个性化服务推荐:河北科技图苑，2007.3