作者:靳书和,邢丽莉,申艳光
1知如何能够投其所好,为用户实现主动推荐,提供个性化服务;这些都是电子商务成败的关键问题。在这种新型的商务模式下,如何对网络上大量的信息进行有效组织利用,帮助海量数据的拥有者们找出真正有价值的信息和知识,以指导他们的商业决策行为,成为电子商务经营者关注的问题。迅速发展的基于web的数据挖掘技术,为解决电子商务所面临的问题提供了有效途径。
2web数据挖掘
2.1web数据挖掘概述
数据挖掘(datamining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和知识的非平凡过程。
web数据挖掘(webmining)是从web文档和web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从/work/">总结、分类、聚类、关联分析等。web结构挖掘是指从web组织结构和链接关系中推导知识。通过对web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。WWw.133229.cOMweb使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览信息中抽取感兴趣的模式。
基于web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。
2.2电子商务中web数据挖掘的步骤
电子商务中web数据挖掘的步骤如下:
①明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘;
②将与业务对象的各类原始数据收集起来作为挖掘的数据源泉;
③对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的
④根据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果;
⑤利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富知识,即进行模式分析与应用。
在整个web数据挖掘的过程中,被明确的业务对象是挖掘过程的基础,它驱动整个web数据挖掘的全过程;同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。
2.3电子商务中web数据挖掘的数据源
在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于web数据挖掘技术产生各种知识模式。
①服务器数据。客户访问站点时会在web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括serverslogs、errorlogs、cookieslogs等。
②查询数据。它是电子商务站点在服务器上产生的一种典型数据。例如,对于再现存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就是通过cookie或是登记信息连接到服务器的访问日志上。
③在线市场数据。这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。
④web页面。主要是指html和xml页面的内容,包括文本、图片、语音、图像等。
⑤web页面超级链接关系。主要是指页面之间存在的超级链接关系,这也是一种重要的资源。
⑥客户登记信息。客户登记信息是指客户通过web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。
2.4web数据挖掘能够获取的知识模式
运用web数据挖掘技术能够对站点上的各种数据源进行挖掘,找到相关的一些知识模式,以指导站点人员更好地运作站点和向客户提供更好的服务。一般运用web数据挖掘可以在站点上挖掘出来的知识模式有以下几个:
①路径分析。它可以被用于判定在一个web站点中最频繁访问的路径。通过路径分析,可以得到重要的页面,可以改进页面及网站结构的设计。
②关联规则的发现。在电子商务中关联规则的发现可以找到客户对网站上各种文件之间访问的相互关系,可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性,可以更好的组织站点的内容,实施有效的市场策略,增加交叉销售量,同时还可以减少用户过滤信息的负担。
③序列模式的发现。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一项”的内部事务模式。它能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选择有针对性地页面,以满足访问者的特定要求。
④分类和预测。分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。分类的目的是通过构造分类模型或分类器,把数据库中的数据项映射到给定类别中的某一个,以便用于预测;也就是利用历史数据记录自动推导出对给定数据的推广描述,从而能对未来数据进行预测,进行适合某一类客户的商务活动。
⑤聚类分析。聚类分析可以从web访问信息数据中聚集出具有相似特性的那些客户。在web事务日志中,聚类顾客信息或数据项能够便于开发和执行未来的市场策略。这种市场策略包括自动给一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取,电子商务网站可以为客户提供个性化的服务。
⑥异常检测。异常检测是对分析对象的少数的、极端的特例的描述,以揭示内在的原因,从而减小经营的风险。异常检测在电子商务中的应用可以体现在信用卡欺诈甄别、发现异常客户和网络入侵检测等方面。
web数据挖掘的各项功能不是独立存在的,而是在挖掘过程中互相联系,发挥作用。
3web数据挖掘在电子商务中的应用
3.1数据抽取方法在电子商务中的应用
与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、能力、欲望等。web数据挖掘要解决的问题就是如何从零散的无规则的网络数据中找到有用的和有规则的数据和知识,基本方法之一就是进行数据抽取,以期对数据进行浓缩,给出它的紧凑描述,如方差值等统计值或用直方图等图形方式表示,从数据泛化的角度讨论数据总结,把最原始、基本的信息数据从低层次抽象到高层次,以便于企业决策。
3.2基于web数据挖掘的智能化搜索引擎
电子商务企业在活动过程中面临的问题之一是如何通过internet全面、准确、及时地收集到企业内、外部的环境信息,尤其是一些隐性的、关系到企业经营成败的关键信息,以提高竞争力。目前的搜索引擎存在着查准率低、返回无用信息多的问题,使企业无法得到优质的信息。鉴于此,将web数据挖掘技术应用于搜索引擎,使之成为智能搜索引擎,从而提高性能,满足电子商务企业的需要。web挖掘技术主要在以下几个方面对搜索引擎有借鉴作用:文档的自动分类、自动摘要的形成、检索结果的联机聚类和相关度排序及实现个性化的搜索引擎。经过文档的分类处理,可以对搜索结果进行分门别类,可以通过限制搜索范围来使文本的查找更为容易,帮助用户快速的对目标知识进行定位,从而提高用户进行网上信息搜索的效率;自动摘要能够解决大部分搜索引擎机械地截取文档的前几句和固定字数的摘要使信息反映不完整的缺陷,使用户能较准确、快速、方便地了解检索信息;通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,从而远离那些不相关的文档,将处理以后的信息以超链结构组织的层次方式可视化地提供给用户,由用户选择他所感兴趣的那一簇,将大大缩小所需浏览的页面数量;将web使用挖掘中的个性化技术应用在搜索引擎中,可以在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关键词,以使得检索结果更接近用户要求,或者根据用户历史浏览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提高用户检索的查全率与查准率。通过借鉴web挖掘技术可以提高查准率与查全率,改善检索结果的组织,从而使检索效率得到改善。
3.3web数据挖掘在客户关系管理中的应用
①客户关系管理的核心
客户关系管理(customerrelationshipmanagement,简称crm)的核心是通过客户和他们行为的有效数据收集,发现潜在的市场和客户,从而获得更高的商业利润,通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现客户的终生价值。可以说crm能给传统企业带来在网络经济时代谋取生存之道的管理制度和技术手段。它要求企业从“以产品为中心”的模式向“以客户为中心”的模式转移。
②web数据挖掘在客户关系管理中的应用
web数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。将web数据挖掘用在电子商务crm中主要体现在客户的获取和保持、价值客户鉴别、客户满意度分析及改善站点结构等几方面。
通过web数据挖掘,可以理解访问者的动态行为,据此优化电子商务网站的经营模式。通过把所掌握的大量客户分成不同的类,对不同类的客户提供个性化服务来提高客户的满意度,从而保持老客户;通过对新访问者的网页浏览记录进行分析,就可以判断出该访问者是属于哪一类客户,是有利可图的潜在客户还是毫无价值的过客,达到区别对待、节省销售成本、提高访问者到购买者的转化率的目的,从而挖掘潜在客户;通过对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,这可以帮助电子商务企业更好地了解客户的兴趣、消费习惯和消费倾向,预测他们的需求,有针对性地向他们推荐特定的商品并实现交叉销售,可以提高交易成功率和交易量,提高营销效果。
此外,站点的结构和内容是吸引客户的关键。利用关联规则的发现,针对不同客户动态调整站点结构和页面内容,把具有一定支持度和信任度的相关联的物品放在一起以有助于销售;通过路径分析等技术可以判定出一类用户对web站点频繁访问的路径,这些路径反映这类用户浏览站点页面的顺序和习惯,将客户访问的有关联的文件实现直接链接,让客户容易地访问到想要的页面。这样的网站会给客户留下好印象,提高客户忠诚度,吸引客户,延长他们在网站上的驻留时间以及提高再次访问的机率。
通过挖掘客户的行为记录和反馈情况,进一步优化网站组织结构和服务方式以提高网站的效率。通过web数据挖掘,可以得到可靠的市场反馈信息,评测广告的投资回报率,从而评估网络营销模式的成功与否;可以根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率,降低公司的运营成本。
③维护客户的隐私权
维护客户的隐私权是商家在商业运作过程中不能忽视的一个基本组成部分。因此,作为电子商务企业,应该尽量避免对单个客户数据进行挖掘。企业管理客户隐私权的保护应该从技术和管理两个方面来实现:技术上,通常是采用加密标志符,并且尽量避免对单个客户数据进行挖掘;管理上,很多电子商务企业现在已经增设了首席隐私官(cpo,chiefprivacyofficer)职位,隐私官将能在个人对隐私的需求和公司以合理手段使用隐私材料的权利之间,建立适当的平衡关系。这种平衡关系的大成,需要以长期的实践和经验为基础。除了电子商务企业以单独的主体身份进行客户隐私权保护的管理之外,行业自律也是保护客户隐私权的一个行之有效的手段。目前,电子商务网站越来越倾向于通过行业自律的方式来树立其在客户心目中的形象,让客户放心地提交数据。
3.4web数据挖掘在个性化服务推荐系统中的应用
电子商务个性化服务推荐系统是向站点企业提供在电子商务中更好地运作crm,建立良好客户关系的一种解决方法,是“以客户为中心”、“一对一”的行销的坚实执行者。
该系统主要是将数据挖掘的思想和方法应用到web服务器日志及web数据库等资源上,挖掘出客户的访问规律;然后将在线访问客户归结到某一类中去,根据该类用户的访问规律进行web页面的推荐;并且系统还可以通过不断地跟踪用户的当前访问,实时调整推荐集,为用户提供个性化的访问。该系统由五大模块组成:数据收集模块、数据预处理模块、数据存储模块、离线挖掘模块和在线推荐模块。其系统结构模型如图1所示:
图1基于web数据挖掘的个性化服务推荐系统结构模型
数据收集模块主要用于收集web数据库、使用日志等数据,形成数据采集库,为以后的挖掘做准备;数据预处理模块主要是对所收集的数据进行预处理,数据预处理的质量与挖掘的效率和结果紧密相关;数据存储模块将预处理后的数据存入用户事务库;离线挖掘模块中的挖掘引擎使用挖掘算法库中的数据挖掘技术如统计分析、关联规则、聚类分析、序列模式等,来发现用户浏览模式,并通过模式分析对其进行分析与解释,根据实际应用,通过观察和选择,把发现的统计结果、规则和模型转换为知识,经过筛选后得到有用的模式用来指导实际的电子商务行为;在线推荐模块在web服务器前端设置了推荐引擎,它将用户当前的浏览活动与浏览出的页面推荐集结合起来考虑,生成相应推荐集,然后在用户最新请求的页面上添加推荐集的页面,再通过web服务器传递到用户端的浏览器,为用户实现实时个性化服务;同时将推荐结果送往网站管理中心,以便调整网站设计,优化网站结构,提高网站效率。
总的来说,在个性化服务推荐系统中运用数据挖掘技术有两个阶段:第一个阶段是学习阶段,离线进行。第二个阶段是模式的使用阶段,在线进行。挖掘和在线推荐的特征获取和规则生成是离线处理的,而当用户访问该网站时通过在线推荐引擎进行在线服务。离线模块和在线模块相互联系,在线模块主要是利用离线模块提供的规则模型对在线用户推荐(推荐引擎);离线模块主要是利用在线模块积累的数据运用系统推荐算法形成相应的规则。挖掘算法和推荐策略可以根据不同类型站点的要求来具体选择,挖掘结果和推荐集通过推荐引擎反馈给用户。电子商务网站的客户登录网站以后,其访问信息将会被记录到服务器端。这些数据将在经过预处理后,在专用的数据挖掘模块中,通过具体的挖掘算法和推荐策略来进行模式识别和模式分析。用户访问信息也会传到推荐引擎,推荐引擎根据客户的会员标识,向挖掘模块抽取对应客户的挖掘结果和推荐集,将其可视化地反馈给用户,达到个性化服务的目的。
3.5基于web的数据挖掘在商业信用评估中的应用
发达的社会信用水平是发展电子商务的重要基础,通过web数据挖掘对站点数据统计和历史记录之间的差别,结果与期望值的偏离以及反常实例进行充分的分析,可以有效地防范投资和经营风险。另外,通过数据挖掘技术对企业经营进行跟踪,开展企业的资产评估、利润收益分析和发展潜力预测,构建完善的安全保障体系,实施网上全程监控,监督网上言论,维护企业信誉,强化网上交易和在线支付的安全管理,利用数据挖掘的信用评估模型,对交易历史数据进行挖掘发现客户的交易数据特征,建立客户信誉度级别,有效地防范和化解信用风险,提高企业信用甄别与风险管理的水平和能力。
4结论
本文对web挖掘技术进行了综述,介绍了其在电子商务中的典型应用。web数据挖掘高度自动化地对电子商务中的大量信息进行分析和推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。web数据挖掘是近几年来数据挖掘领域的探讨热点,利用它的技术知识将它运用到电子商务,将会解决许多实际问题,具有丰富的学术价值。将web数据挖掘技术和电子商务两者有机结合,将会为企业更有效的确认目标市场,改进决策,获得竞争优势提供帮助,有着很广阔的应用前景,使电子商务网站更具有竞争力,从而为企业带来更多的效益。面向电子商务的web数据挖掘能发现大量数据背后隐藏的知识,指导商家提高销售额,改善企业客户关系,提高网站运行效率,改进系统性能,具有良好的发展和应用前景,必将得到越来越多的关注。
参考文献:
[1]毛国君.数据挖掘原理与算法[m].清华大学出版社.2005(07).
[2]张冬青.数据挖掘在电子商务中应用问题研究[j].现代情报.2005(09).
[3]李凤慧.面向电子商务的web数据挖据的研究[d].山东科技大学硕士学位论文.2004(06).
[4]杨风召,白慧.异常检测技术及其在电子商务中的应用[j].情报杂志.2005(12).
[5]陆垂伟.电子商务中数据挖掘技术的研究与应用[j].商场现代化.2006(04).
[6]chenyu-ru,hungming-chuan,don-linyang.usingdataminingtoconstructanintelligentwebsearchsystem[j].internationaljournalofcomputerprocessingoforientallanguages,2003,16(2).