T代表每个格子中的理论频数。
计算方法:
卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。
每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*(91/113)=,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
卡方检验要求:
最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。
利用统计学软件分析结果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
扩展资料
一、卡方检验的基本思想
卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
二、卡方值的计算与意义
χ2值表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。
1、设A代表某个类别的观察频数,E代表基于解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): H_0 计算出的期望频数,A与E之差称为残差。
2、显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
3、另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
参考资料来源:百度百科-卡方检验