数据清理是有一些步骤的,一般分为缺失值清洗,格式内容清洗,逻辑错误清洗,非需求数据清洗,关联性验证。缺失值是最常见的数据问题,处理缺失值也有很多方法,我建议按照以下四个步骤进行:1、确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略。2、去除不需要的字段:这一步很简单,直接删掉即可,但强烈建议清洗每做一步都备份一下,或者在小规模数据上试验成功再处理全量数据。3、填充缺失内容:某些缺失值可以进行填充。4、重新取数:如果某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。第二步:格式内容清洗如果数据是由系统日志而来,那么通常在格式和内容方面,会与元数据的描述一致。而如果数据是由人工收集或用户填写而来,则有很大可能性在格式和内容上存在一些问题。第三步:逻辑错误清洗这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。第四步:非需求数据清洗这一步说起来非常简单:把不要的字段删了。但实际操作起来,有很多问题。第五步:关联性验证如果你的数据有多个来源,那么有必要进行关联性验证。例如,你有汽车的线下购买信息,也有电话客服问卷信息,两者通过姓名和手机号关联,要看一下同一个人线下登记的车辆信息和线上问卷问出来的车辆信息是不是同一辆,如果不是,那么需要调整或去除数据。