不合格的数据需要清除,问卷数据需要补充。
以下是简单的数据清理方法和步骤:
来自非研究对象的问卷数据,例如你的研究对象是Z世代,不适用于1995年之前出生的人。通常,对于此类人群属性要求,应在问卷中设计相应的筛选问题,例如“你的出生年份是多少?/你的年龄是多少。但如果你在风铃系统的样本库中分发问卷,你可以省去这一步,因为我们的400多万样本库涵盖了不同的年龄组、行业和地区。我们可以根据人口属性、用户档案、行为档案和其他标签进行准确的抽样,并在正式q之前设置预问卷。”确保抽样标签的准确性。快速回答者和直白回答者是指回答问题的时间太短/太长的受访者,例如有人在20秒内完成了20个问题,或者有人回答的时间比平均时间长1/3。风铃系统自动计算“整体报告”中的平均完成时间,并在响应数据中进一步查看每个受访者的进入和完成时间,以及总持续时间。当您识别出超速驾驶的驾驶员时,可以将其标记为无效,无效问卷将不包括在问卷数据分析中。受访者是表现出某种回答模式的受访者,这种类型的问卷数据清理很困难。可以提前在问卷中设置陷阱问题和反向问题,以测试受访者的严肃性。在回答与现实不符或不一致的问题时,受访者在年龄问题上选择“18岁以下”,在婚姻状况上选择“已婚”,这显然是不正常的。有些人的回答不一致,比如声称自己从未使用过某个产品,但却回答了自己喜欢的产品功能。像这样的答案可以通过过滤器过滤。例如,Outlier声称在调查中有10个孩子,或者每天喝10升水和其他不正常的回答。你不能说100%是假的,但这并不能反映一般情况,但它也会影响统计结果,如范围、极值、平均值、误差等,因此应该将其从数据中删除。有时,即使开放式问题的形式和字数有限(如汉字/数字/字母),仍然可能存在嘴唇不正确的无效答案,如“啊@@#¥…**%¥@@”,需要消除。没有完美的数据,即使是一个好的问卷调查也不可避免地会有错误,所以在清理之前需要更加谨慎。您可以从自上而下(基于数据分析结果)和自下而上(基于原始数据)的角度评估删除数据是否会影响结论。如果删除了脏数据,但结论仍然不符合假设,并且可靠性和有效性不足,那么是时候考虑其他地方是否存在问题了。