不是正态的数据分析,第一反应是寻求变换,常用的就是Box-Cox变换。如果还不行的话,就直接上非参数了。
对待这种问题,一般要先弄清不正态的原因再说。
第一种情况:数据本来就不是正态的。
如果明确知道样本数据所代表的总体本来就不是正态分布的,可以考虑寻求变换,通常都会找到恰当的变换参数。但有些数据也不一定能够变换成功,这时可以采用非参数检验来进行分析。
第二种情况:存在异常点。
如果确认是异常点,可以考虑剔除。但如果找不到产生异常点的原因,它可能就是一个正常数据,此时可以考虑补充抽样,看看能不能把异常点与大多数数据中的空间填补上。
第三种情况:双峰(多峰)数据。
可能每组数据都服从正态分布,但混在一起就不行了。恰当的做法是尽可能把数据按不同属性分开分析。
第四种情况:平顶的数据。
平顶的数据是指在直方图上看到的图形是相对比较平坦的,这时就要考虑尽可能把混在一起的数据按其属性分开,每个属性的数据单独分析。同时还可以考虑只取近期的数据进行分析,历史数据在当前可能不那么适用了。