数据挖掘基本流程中的核心工作

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘流程：定义问题：清晰地定义出业务问题，确定数据挖掘的目的。数据准备：数据准备包括：选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理–进行数据再加工，包括检查数据的完整性及数据的一致性、去噪声，填补丢失的域，删除无效数据等。数据挖掘：根据数据功能的类型和和数据的特点选择相应的算法，在净化和转换过的数据集上进行数据挖掘。结果分析：对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

数据挖掘(datamining-dm)是从存放在数据库、数据仓库、或其它信息库中的大量数据中挖掘有趣知识的过程川。数据挖掘有时也称作kdd,kdd(knowledgediscoveryindatabases-kdd:知识发现)即是基于数据库的知识发现，指的是从大型数据库或数据仓库中提取人们感兴趣的知识，这些知识是隐含的、事先未知的、潜在有用的、易被理解的信息。实质上，这两个概念的内涵大致相同，只是从不同的角度认识问题而已。譬如人工智能的研究人员倾向于讲kdd，而计算机和信息技术专家通常说数据挖掘。

数据挖掘是知识挖掘的核心

大数据的核心：数据挖掘大数据的核心：数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘，但是我们不关心是什么是数据挖掘，我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西，而我们更关心的是这个过程是什么？如何开始？总结的过程也是一个学习的过程，通过有章节的整理对目前正在的学习的内容做规整。在这个过程中我们会从具体的项目实施中去谈数据挖掘，中间会贯穿很多的概念，算法，业务转换，过程，建模等等。我们列一下要谈论的话题：1、什么是数据挖掘及为什么要进行数据挖掘？2、数据挖掘在营销和CRM中的应用？3、数据挖掘的过程4、你应理解的统计学5、数据描述与预测：剖析与预测建模6、经典的数据挖掘技术7、各类算法8、数据仓库、OLAP、分析沙箱和数据挖掘9、具体的案例分析什么是数据挖掘？是知识发现、商业智能、预测分析还是预测建模。其实都可以归为一类：数据挖掘是一项探测大量数据以发现有意义的模式（pattern）和规则（rule）的业务流程。这里谈到了发现模式与规则，其实就是一项业务流程，为业务服务。而我们要做就是让业务做起来显得更简单，或直接帮助客户如何提升业务。在大量的数据中找到有意义的模式和规则。在大量数据面前，数据的获得不再是一个障碍，而是一个优势。在现在很多的技术在大数据集上比在小数据集上的表现得更好——你可以用数据产生智慧，也可以用计算机来完成其最擅长的工作：提出问题并解决问题。模式和规则的定义：就是发现对业务有益的模式或规则。发现模式就意味着把保留活动的目标定位为最有可能流失的客户。这就意味着优化客户获取资源，既考虑客户数量上的短期效益，同时也考虑客户价值的中期和长期收益。而在上面的过程，最重要的一点就是：如何通过数据挖掘技术来维护与客户之间的关系，这就是客户关系管理，CRM。专注于数据挖掘在营销和客户关系管理方面的应用——例如，为交叉销售和向上销售改进推荐，预测未来的用户级别，建模客户生存价值，根据用户行为对客户进行划分，为访问网站的客户选择最佳登录页面，确定适合列入营销活动的候选者，以及预测哪些客户处于停止使用软件包、服务或药物治疗的风险中。两种关键技术：生存分析、统计算法。在加上文本挖掘和主成分分析。经营有方的小店自然地形成与客户之间的学习关系。随着时间的推移，他们对客户的了解也会越来越多，从而可以利用这些知识为他们提供更好的服务。结果是：忠实的顾客和盈利的商店。但是拥有数十万或数百万客户的大公司，则不能奢望与每个客户形成密切的私人关系。面临这样困境，他们必须要面对的是，学会充分利用所拥有的大量信息——几乎是每次与客户交互产生的数据。这就是如何将客户数据转换成客户知识的分析技术。数据挖掘是一项与业务流程交互的业务流程。数据挖掘以数据作为开始，通过分析来启动或激励行为，这些行为反过来又将创建更多需要数据挖掘的数据。因此，对于那些充分利用数据来改善业务的公司来说，不应仅仅把数据挖掘看作是细枝末节。相反，在业务策略上必须包含：1、数据收集。2、为长期利益分析数据。3、针对分析结果做出分析。CRM（客户关系管理系统）。在各行各业中，高瞻远瞩的公司的目标都是理解每个客户，并通过利用这种理解，使得客户与他们做生意更加容易。同样要学习分析每个客户的价值，清楚哪些客户值得投资和努力来保留，哪些准许流失。把一个产品为中心的企业转变成以客户为中心的企业的代价超过了数据挖掘。假设数据挖掘的结果是像一个用户推荐一个小首饰而不是一个小发明，但是如果经理的奖金取决于小发明的季度销售量而不是小首饰的销售量（即便后者更为有利可图或者收获长期盈利更多的客户），那么数据挖掘的结果就会被忽视，这就导致挖掘结果不能产生决策。

分类是在一群已经知道类别标号的样本中，训练一种分类器，让其能够对某种未知的样本进行分类。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集，通过分析由属性描述的数据库元组来构造模型。

简单地说，数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’，不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数

好比淘金者在河沙里淘沙获取金子一个道理，数据挖掘就是在大量已知的数据里找出来有用的数据！数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘的核心是

数据分析与数据挖掘的目的不一样，数据分析是有明确的分析群体，就是对群体进行各个维度的拆、分、组合，来找到问题的所在，而数据发挖掘的目标群体是不确定的，需要我们更多是是从数据的内在联系上去分析，从而结合业务、用户、数据进行更多的洞察解读。数据分析与数据挖掘的思考方式不同，一般来讲，数据分析是根据客观的数据进行不断的验证和假设，而数据挖掘是没有假设的，但你也要根据模型的输出给出你评判的标准。我们经常做分析的时候，数据分析需要的思维性更强一些，更多是运用结构化、MECE的思考方式，类似程序中的假设。分析框架（假设）+客观问题（数据分析）=结论（主观判断）而数据挖掘大多数是大而全，多而精，数据越多模型越可能精确，变量越多，数据之间的关系越明确数据分析更多依赖于业务知识，数据挖掘更多侧重于技术的实现，对于业务的要求稍微有所降低，数据挖掘往往需要更大数据量，而数据量越大，对于技术的要求也就越高需要比较强的编程能力，数学能力和机器学习的能力。如果从结果上来看，数据分析更多侧重的是结果的呈现，需要结合业务知识来进行解读。而数据挖掘的结果是一个模型，通过这个模型来分析整个数据的规律，一次来实现对于未来的预测，比如判断用户的特点，用户适合什么样的营销活动。显然，数据挖掘比数据分析要更深一个层次。数据分析是将数据转化为信息的工具，而数据挖掘是将信息转化为认知的工具。其实不论数据分析还是数据挖掘，能抓住老鼠的就是好猫，真的没必要纠结他们之前的区别，难道你给领导汇报时，第一部分是数据分析得出，第二部分是数据挖掘得出？他们只关注你分析的逻辑、呈现的方式。

数据分析和数据挖掘都是从数据库中发现知识、所以我们称数据分析和数据挖掘叫做数据库中的知识发现。但严格意义上来讲，数据挖掘才是真正意义上的数据库中的知识发现（Knowledge Discovery in Database，KDD）。数据分析是从数据库中通过统计、计算、抽样等相关的方法，获取基于数据库的数据表象的知识，也就是指数据分析是从数据库里面得到一些表象性的信息。数据挖掘是从数据库中，通过机器学习或者是通过数学算法等相关的方法获取深层次的知识（比如属性之间的规律性，或者是预测）的技术。

数据挖掘领域的十大经典算法：C5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART。不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。 C The k-means algorithm 即K-Means算法 Support vector The Apriori 最大期望(EM)算法 PageR AdaB kNN: k-nearest neighbor Naive B CART关于数据挖掘的相关学习，推荐CDA数据师的相关课程，课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维，通过数字化工作方法来探查业务问题，通过近因分析、宏观根因分析等手段，再选择业务流程优化工具还是算法工具，而非“遇到问题调算法包”点击预约免费试听课。

数据挖掘的十大算法按照不同的目的，我可以将这些算法分成四类，以便你更好地理解。分类算法：C5，朴素贝叶斯（Naive Bayes），SVM，KNN，Adaboost，CART聚类算法：K-Means，EM关联分析：Apriori连接分析：PageRank1、C5C5 算法是得票最高的算法，可以说是十大算法之首。C5 是决策树的算法，它创造性地在决策树构造过程中就进行了剪枝，并且可以处理连续的属性，也能对不完整的数据进行处理。它可以说是决策树分类中，具有里程碑式意义的算法。2、朴素贝叶斯（Naive Bayes）朴素贝叶斯模型是基于概率论的原理，它的思想是这样的：对于给出的未知物体想要进行分类，就需要求解在这个未知物体出现的条件下各个类别出现的概率，哪个最大，就认为这个未知物体属于哪个分类。3、SVMSVM 的中文叫支持向量机，英文是 Support Vector Machine，简称 SVM。SVM 在训练中建立了一个超平面的分类模型。如果你对超平面不理解，没有关系，我在后面的算法篇会给你进行介绍。4、KNNKNN 也叫 K 最近邻算法，英文是 K-Nearest Neighbor。所谓 K 近邻，就是每个样本都可以用它最接近的 K 个邻居来代表。如果一个样本，它的 K 个最接近的邻居都属于分类 A，那么这个样本也属于分类 A。5、AdaBoostAdaboost 在训练中建立了一个联合的分类模型。boost 在英文中代表提升的意思，所以 Adaboost 是个构建分类器的提升算法。它可以让我们多个弱的分类器组成一个强的分类器，所以 Adaboost 也是一个常用的分类算法。6、CARTCART 代表分类和回归树，英文是 Classification and Regression Trees。像英文一样，它构建了两棵树：一棵是分类树，另一个是回归树。和 C5 一样，它是一个决策树学习方法。7、AprioriApriori 是一种挖掘关联规则（association rules）的算法，它通过挖掘频繁项集（frequent item sets）来揭示物品之间的关联关系，被广泛应用到商业挖掘和网络安全等领域中。频繁项集是指经常出现在一起的物品的集合，关联规则暗示着两种物品之间可能存在很强的关系。8、K-MeansK-Means 算法是一个聚类算法。你可以这么理解，最终我想把物体划分成 K 类。假设每个类别里面，都有个“中心点”，即意见领袖，它是这个类别的核心。现在我有一个新点要归类，这时候就只要计算这个新点与 K 个中心点的距离，距离哪个中心点近，就变成了哪个类别。9、EMEM 算法也叫最大期望算法，是求参数的最大似然估计的一种方法。原理是这样的：假设我们想要评估参数 A 和参数 B，在开始状态下二者都是未知的，并且知道了 A 的信息就可以得到 B 的信息，反过来知道了 B 也就得到了 A。可以考虑首先赋予 A 某个初值，以此得到 B 的估值，然后从 B 的估值出发，重新估计 A 的取值，这个过程一直持续到收敛为止。EM 算法经常用于聚类和机器学习领域中。10、PageRankPageRank 起源于论文影响力的计算方式，如果一篇文论被引入的次数越多，就代表这篇论文的影响力越强。同样 PageRank 被 Google 创造性地应用到了网页权重的计算中：当一个页面链出的页面越多，说明这个页面的“参考文献”越多，当这个页面被链入的频率越高，说明这个页面被引用的次数越高。基于这个原理，我们可以得到网站的权重划分。

数据挖掘的核心任务

说的最直白的就是从一堆数据中找出有价值的东西，以便用来赚更多的钱。。。

一、数据挖掘工具分类数据挖掘工具根据其适用的范围分为两类：专用挖掘工具和通用挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案，在涉及算法的时候充分考虑了数据、需求的特殊性，并作了优化。对任何领域，都可以开发特定的数据挖掘工具。例如，IBM公司的AdvancedScout系统针对NBA的数据，帮助教练优化战术组合。特定领域的数据挖掘工具针对性比较强，只能用于一种应用；也正因为针对性强，往往采用特殊的算法，可以处理特殊的数据，实现特殊的目的，发现的知识可靠度也比较高。通用数据挖掘工具不区分具体数据的含义，采用通用的挖掘算法，处理常见的数据类型。通用的数据挖掘工具不区分具体数据的含义，采用通用的挖掘算法，处理常见的数据类型。例如，IBM公司Almaden研究中心开发的QUEST系统，SGI公司开发的MineSet系统，加拿大SimonFraser大学开发的DBMiner系统。通用的数据挖掘工具可以做多种模式的挖掘，挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。二、数据挖掘工具选择需要考虑的问题数据挖掘是一个过程，只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合，并在实施的过程中不断的磨合，才能取得成功，因此我们在选择数据挖掘工具的时候，要全面考虑多方面的因素，主要包括以下几点： (1) 可产生的模式种类的数量：分类，聚类，关联等 (2) 解决复杂问题的能力 (3) 操作性能 (4) 数据存取能力 (5) 和其他产品的接口三、数据挖掘工具介绍： QUEST QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统，目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点：提供了专门在大型数据库上进行各种开采的功能：关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。各种开采算法具有近似线性计算复杂度，可适用于任意大小的数据库。算法具有找全性，即能将所有满足指定类型的模式全部寻找出来。为各种发现功能设计了相应的并行算法。 MineSet MineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具，帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet有如下特点： MineSet以先进的可视化显示方法闻名于世。支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据，也可以通过SQL命令执行查询。多种数据转换功能。在进行挖掘前，MineSet可以去除不必要的数据项，统计、集合、分组数据，转换数据类型，构造表达式由已有数据项生成新的数据项，对数据采样等。操作简单、支持国际字符、可以直接发布到Web。 DBMiner DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统，它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起，以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色：能完成多种知识的发现：泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。综合了多种数据开采技术：面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。提出了一种交互式的类SQL语言——数据开采查询语言DMQL。能与关系数据库平滑集成。实现了基于客户/服务器体系结构的Unix和PC（Windows/NT）版本的系统。 Intelligent Miner 由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、行为监测及客户联系管理等；Intelligent Miner for Text允许企业从文本信息进行数据挖掘，文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。 SAS Enterprise Miner 这是一种在我国的企业中得到采用的数据挖掘工具，比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具，按照"抽样--探索--转换--建模--评估"的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成，实现从提出数据、抓住数据到得到解答的"端到端"知识发现。 SPSS Clementine SPSS Clementine是一个开放式数据挖掘工具，曾两次获得英国政府SMART 创新奖，它不但支持整个数据挖掘流程，从数据获取、转化、建模、评估到最终部署的全部过程，还支持数据挖掘的行业标准--CRISP-DM。Clementine的可视化数据挖掘使得"思路"分析成为可能，即将集中精力在要解决的问题本身，而不是局限于完成一些技术性工作（比如编写代码）。提供了多种图形化技术，有助理解数据间的关键性联系，指导用户以最便捷的途径找到问题的最终解决办法。数据库厂商集成的挖掘工具 SQL Server 2000包含由Microsoft研究院开发的两种数据挖掘算法：Microsoft决策树和Microsoft聚集。此外，SQL Server 2000中的数据挖掘支持由第三方开发的算法。 Microsoft决策树算法：该算法基于分类。算法建立一个决策树，用于按照事实数据表中的一些列来预测其他列的值。该算法可以用于判断最倾向于单击特定标题（banner）或从某电子商务网站购买特定商品的个人。 Microsoft聚集算法：该算法将记录组合到可以表示类似的、可预测的特征的聚集中。通常这些特征可能是隐含或非直观的。例如，聚集算法可以用于将潜在汽车买主分组，并创建对应于每个汽车购买群体的营销活动。，SQL Server 2005在数据挖掘方面提供了更为丰富的模型、工具以及扩展空间。包括：可视化的数据挖掘工具与导航、8种数据挖掘算法集成、DMX 、XML/A、第三方算法嵌入支持等等。 Oracle Data Mining (ODM) 是 Oracle 数据库 10g 企业版的一个选件，它使公司能够从最大的数据库中高效地提取信息并创建集成的商务智能应用程序。数据分析人员能够发现那些隐藏在数据中的模式和内涵。应用程序开发人员能够在整个机构范围内快速自动提取和分发新的商务智能 — 预测、模式和发现。ODM 针对以下数据挖掘问题为 Oracle 数据库 10g 提供支持：分类、预测、回归、聚类、关联、属性重要性、特性提取以及序列相似性搜索与分析 (BLAST)。所有的建模、评分和元数据管理操作都是通过 Oracle Data Mining 客户端以及 PL/SQL 或基于 Java 的 API 来访问的，并且完全在关系数据库内部进行。 IBM Intelligent Miner 通过其世界领先的独有技术，例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现，它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作。若有必要，对结果数据集还可以重复这一过程，直至得到满意结果为止。现在，IBM的 Intelligent Miner已形成系列，它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具 ----Intelligent Miner for Data和IBM Intelligent Miner forText ，帮助企业选取以前未知的、有效的、可行的业务知识---- 如客户购买行为，隐藏的关系和新的趋势，数据来源可以是大型数据库和企业内部或Internet 上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策，获得竞争优势。

最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。和它们的权系数：W1, W2, , Wn，求和计算出的 Xi*Wi ，产生了

FineBI数据挖掘的结果将以字段和记录的形式添加到多维数据库中，并可以在新建分析时从一个专门的数据挖掘业务包中被使用，使用的方式与拖拽任何普通的字段没有任何区别。配合FineBI新建分析中的各种控件和图表，使用OLAP的分析人员可以轻松的查看他们想要的特定的某个与结果，或是各种各样结果的汇总。

数据挖掘核心期刊

通常文章安排的发表时间,是根据杂志的征稿时间定的一般杂志会提前1-3个月时间征稿,满一期开始征下一期杂志出刊后,一般各杂志社会统一邮递发表论文审核时间一般普通刊物（省级、国家级）审核时间为一周,高质量的杂志,审核时间为15-20天核心期刊审核时间一般为3个月,须经过初审、复审、终审三道程序

很多建议上小木虫查查

数据挖掘相关的权威期刊和会议-----------------------------------------------[Journals]　　ACM Transactions on Knowledge Discovery from Data (TKDD)　　IEEE Transactions on Knowledge and Data Engineering (TKDE)　　Data Mining and Knowledge Discovery　　Knowledge and Information Systems　　Data & Knowledge Engineering[Conferences]　　SIGMOD:ACM Conference on Management of Data (ACM)　　VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM)　　ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society)　　SIGKDD:ACM Knowledge Discovery and Data Mining (ACM)　　WWW:International World Wide Web Conferences (W3C)　　CIKM:ACM International Conference on Information and Knowledge Management (ACM)　　PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases (Springer-Verlag LNAI)个性化推荐建议去john riedl的主页逛逛，Grouplen的leader-du/~riedl/个性化推荐的书最出名的是 handbook 这是个性化推荐的"教科书" 国内貌似就有一本项亮的《推荐系统实践》

首页

> 期刊发表知识库

数据挖掘基本流程中的核心工作