数据库技术和计算机网络的发展和广泛运用,信息日益成为企业的一种重要资源,人们利用信息技术生产和搜集数据的能力大幅度提高,在这些数据背后隐藏着极为重要的商业知识,但是这些商业知识是隐含的、事先未知的。面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘技术应运而生,越来越显示出其强大的生命力。
1 数据挖掘技术
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近的术语,如从数据库中发现知识、数据分析、数据融合以及决策支持等。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。常用的数据挖掘技术主要有以下几种:
1.1 人工神经网络
仿照生理神经网络结构的非线性预测模型,主要由“神经元”的互联,或按层组织的节点构成,通常由输入层、中间层和输出层三个层次组成,在每个神经元求得输入值后,再汇总计算输入值;由过滤机制比较输入值,确定网络的输出值。
1.2 决策树
决策树是一个类似流程图的树型结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表1个测试输出,而每个树叶点代表类或类分布。树的最顶层节点是根节点。目前,在数据挖掘中使用的决策树方法有多种,典型的在国际上影响较大的决策树方法是Quinlan研制的ID3算法。
1.3 遗传算法
遗传算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学相互结合渗透的计算方法。遗传分析应用搜索技术,先找出两个合适的父样本,通过“交叉”“变异”等带有生物遗传特点的操作产生下一代样本,对子样本反复“交叉”“变异”操作直到子样本收敛为此,再找另外两个合适的父样本重复上述过程,就能得到下一代的样本集。由此得到当前样本集较可能的发展方向。
1.4 近邻算法
用该方法进行预测的基本概念就是相互之间“接近”的对象具有相似的预测值。如果知道其中一个对象的预测值后,可以预测其最近的邻居对象。
1.5 规则推导
根据统计意义上对数据中的规则“如果条件怎么样、怎么样,那么结果或情况就怎么样”,对给定的一组项目和一个记录集合,通过分析记录集合,推导出项目间的相关性。
1.6 聚类方法
聚类分析方法按一定的距离或相似性测度将数据分成系列相互区分的组,它是不需要预定义知识而直接发现一些有意义的结构与模式。可采用拓扑结构分析、空间缓冲区及距离分析、覆盖分析等方法,旨在发现目标在空间上的相连、相邻和共生等关联关系。
1.7 可视化技术
可视化技术在数据挖掘过程中的数据准备阶段是非常重要的,它能够帮助人们进行快速直观地分析数据。利用可视化方法,很容易找到数据之间可能存在的模式、关系和异常情况等。
2 数据挖掘技术在营销中应用的理论假设
随着数据量的急剧增长,现在的用户很难再像以前那样,自己根据数据的分布找出规律,并根据此规律进行分析决策。因此必须借助于相应的数据挖掘工具,自动发现数据中隐藏的规律或模式,为决策提供支持。随着市场经济国际化、区域经济全球化、业务处理数字化、消费需求个性化的市场竞争环境的形成,企业将面临更多的竞争对手和不确定的信息,需要借助于数据挖掘技术对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据,来控制成本、提高效益。
在企业市场营销中,数据挖掘技术得到了比较普通的运用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体的下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销。这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效率,从而为企业带来更多的利润。