基于Web挖掘的电子商务应用研究
2015-07-07 09:58 来源:学术参考网 作者:未知
[摘要] 近年来,随着internet/web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于/pc/">计算,而且/dianzijixie/">电子商务的蓬勃发展为网络应用提供了强大支持,如何在/lixue/">自然语言,因此可利用web文档中的标记,利用这些信息可以提高web文本挖掘的性能。在对web文档进行分类分析中,可以基于一组预先分好的文档为每一类文档赋予一个类标签。由于超链接里包括了有关页面内容的高质量信息,因此可以利用这些信息对文档进行分类,并且这种分类比基于关键字的分类更加准确。随着网络带宽的扩大,多媒体信息在网上迅速增加,这对web内容挖掘提出了新的要求。web多媒体挖掘的挖掘主要是指基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像的挖掘。
2.web结构挖掘
web结构挖掘是对web的组织结构和链接关系进行挖掘,从人为的链接关系中获得有价值的知识。由于文档之间互连,/dianzijixie/">电子商务中的应用
1.web挖掘数据的来源
在web挖掘中,一个关键性步骤是为web挖掘提供合适的数据即挖掘对象。同样,把web挖掘技术应用到电子商务中,也需要选择合适的目标数据集合。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表。这些数据具体分为以下几种:
(1)服务器日志数据
web服务器日志记录了用户访问电子商务站点的浏览行为,是使用web挖掘的主要数据来源。wwW.133229.CoM日志文件格式中最常用的公用日志格式(common log format)提供了关于访问者物理访问站点的信息。
(2)cookie日志数据
cookie日志是服务器为了自动跟踪电子商务网站访问者而为单个浏览器生成的标志。用于自动标记和跟踪站点的访问者,并由客户端持有。cookie通常存储的是类似于购物手推车状态信息或者客户最近连接电子商务网站所访问的网页等信息。在电子商务网站,存储在cookie日志的数据主要是交易信息。
(3)客户信息
在电子商务的交易过程中,须经过银行的信用授权才能进行交易。在这一过程中,大量有关客户的个人资料等信息会传到电子商务网站。把这些数据经过清洗,然后存入网站的数据仓库中作为长期趋势的分析数据,供数据挖掘之用。所需的数据类型取决于在线购物时的商业类型和所使用的数据本身。
(4)其他数据源
电子商务是基于internet进行各种交易的,在其上面有大量的异质数据源,里面隐含了大量的有价值的信息有待挖掘。可以利用智能agent来进行抽取而获得有用的信息,有助于电子商务活动的开展。
2.电子商务中web挖掘的过程
在电子商务环境下,主要的挖掘对象是服务器日志。其主要步骤如下。
(1)数据预处理
由于本地缓存、代理服务器、防火墙的存在,使得web日志中的数据并不精确,直接进行挖掘有可能出现错误结果。因此首先对日志数据进行预处理,它包括数据净化、用户会话和事务识别等。数据清洗主要是删除与挖掘算法无关的记录、判断是否有重要的访问没有被记录;用户会话是一个用户在一定时间内请求的所有web页面;事务识别主要是将页面访问序列划分为代表web事务或用户会话的逻辑单元。
(2)模式发现
模式发现阶段是采用统计法、机器学习法等成熟技术,从web使用记录中挖掘知识。与电子商务有关的模式发现的方法有统计分析、聚类规则和依赖性建模。统计分析是抽取有关电子商务网站访问者的最常用的方法。可以利用特征选择方法来分析网页,就能分析出网页的某个特征的点击流次数,根据获得的结果调整网页的内容和链接结构。聚类规则是从一组数据项中聚集出相似特征的一个聚类。在电子商务中,大致可分为两类聚类:用户聚类和网页聚类。利用聚类的规则可以分析顾客的信息便以开展电子商务活动。依赖性建模的目标是开发出一种能表达web域中各变量显著依赖性的模型。这种模型是根据已存在的web数据,然后抽象出这些数据内在关系的模型。模型的建立对增加网上产品的销量和改进用户导航的便利性都有很大的作用。除此以外,还有关联规则、分类、序列模式等其他的模式发现方法在电子商务的web挖掘中有较大应用。
(3)模式分析
模式分析主要是采用合适的技术和工具,进行模式的分析来辅助分析人员的理解。最常见的模式分析方法是采用sql查询语句进行分析。另一种分析方法是先将数据导入到多维数据立方体中,再利用olap工具进行分析并提供可视化的结果输出。设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力是电子商务网站生存和发展的关键因素。
把web挖掘的思想和方法应用到电子商务中去,通过对用户访问行为、内容和频度的分析,就可以得到关于群体用户访问行为的信息。利用这些挖掘到的有价值的信息,电子商务网站可以有针对性的开展商务活动。因此,web挖掘在电子商务领域有很大的应用前景。
相关文章
学术参考网 · 手机版
https://m.lw881.com/