分类数据分析
之前我们回顾了一下从2个连续型数据的估计和检验。现在要展开2个分类型数据的拟合优度和独立性的检验(列联表),再到一个分类数据一个连续数据的方差分析。
什么是对分类数据进行分析?就是对不同类别下产生的频数进行统计,进而看类别与类别之间相互作用的关系。
一般用χ^2检验
一、χ^2统计量
- χ^2分布用于测定两个分类变量之间的相关程度。
-
统计量公式:
描述了观察值与期望值之间的接近程度。
自由度越大,越趋近于正态分布。
二、拟合度检验(1个分类变量的相关性检验)
1.主要用来判断:各分类的观察频数 与 期望频数,是否有显著差异。
例如,泰坦尼克号例子,先不按类别计算出期望数据,和按照性别类别观察出的数据,进行对比发现问题,引出拟合检验。
2.由观察出的明显差异,引出做假设检验:H0,:观察频数与期望频数一致。
3.进行卡方计算,根据自由度df=R-1,R为分类变量的个数,即df=1,Zα=0.1进行边界值查找,与计算出的卡方,进行对比。大于则拒绝,小于则接受
三、列联分析(2个分类变量独立性检验)
版权声明:本文为weixin_46298210原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。