最近在看数据分析相关文章的时候,看到了很多相似的关键词,如数据建模、数据挖掘、数据分析等等。它们指的是什么,彼此之间又有怎样的关联或者区别呢。 在看数据建模相关概念时,有两种截然不同的说法,我尝试将它们总结如下: - 在大数据领域,指的是将业务抽象为数据表以及表与表之间关系的过程; - 在数据分析领域,更多的含义指的是“ 数学建模 ”,即找到输入和输出之间的规律的过程; 数据分析其实是更大的概念,但是如果单拎出来和数据挖掘进行对比时,他们的区别应该是: - 数据分析侧重依靠人的智慧对数据进行观察,从而分析和推测 - 数据挖掘侧重依靠机器从训练集中发现规律 - 数据分析的常用方法为对比分析、分组分析、回归分析(找A和B的规律); - 一般流程为先明确目标(ctr不高如何提升),然后对原因做假设,并且通过现实数据对假设进行验证,从而得到结论; - 数据挖掘的常用方法为专家系统、统计、机器学习(分类算法、回归算法)等 - 一般流程为先明确目标,然后收集和清洗数据,对数据进行建模,最后输出模型或者规则; 这里参考的是: 这位大佬将流程分为了两张图来解释,我这里为了方便看,把两张图合二为一,同样也根据不同的步骤分层打上了不同的颜色。 同时在相关步骤的右上角也有对应的编号,关于对应编号的详细阐述可以在图的下方找到: 1、数据清洗:洗掉数据中的无效或干扰信息 2、数据整理:将原始数据整合成可以分析的样子 - 数据聚合:将多张表的数据聚合,比如用户购买流水、出售流水等,聚合为以用户为度的统计:购买次数,出售次数等; - 数据打标:比如我们的源数据很散,假设是一张帖子,那么我们只需要提取其中部分信息,然后将这个帖子打上标记,比如求购贴/出售贴,涉及机型:任天堂/PS4/XBOX等 3、选择变量:从业务逻辑和数据逻辑两方面来考虑,业务逻辑重要程度更高 - 业务逻辑:哪些变量是可能影响结果的 - 数据逻辑:考虑变量的集中度(如果99%都是同一值,则不适合)、完整性(是否大部分数据都有该变量) 4、重构变量:调整变量或者将变量进行一定程度的转换,如聚合(活跃天数聚合为高中低活)、组合(A+B或者A*B等) 5、选择算法:要根据具体业务场景选择合适的模型(对应机器学习模型分类可以参考 【数据向】(一)人工智能与机器学习、深度学习的关系 中),比如: - 购物习惯分析:相关、聚类 - 购物金额预测:回归 - 满意度调查:聚类、分类、回归 6、调整参数:给出一些必要的参数,比如K-means算法中的聚类数量K和迭代次数上限等参数,并且根据训练集的测试结果进行不断调整; 7、迭代优化:当调参解决不了问题时,考虑更换算法,比如K-means不好就试试系统聚类;回归模型不好就改成时间序列; 8、描述分析和洞察结论:通过观察事实数据,进行分组、对比等,得出一些结论,如某某地区玩家更多,某某游戏机更流行等;