在学习这部分内容时我第一个遇到的问题就是,我到底该说“正态分布性假定检验”还是“正态假定检验”还是“正态检验”还是“正态分布假定检验”。很绕,能理解,但是你需要做的是不要死扣细节,内心里把他们当同一个事情看就好了。
我上课时老师介绍的正态分布性假定检验的方法主要有下面这三种。
(1)频率直方图:将数据以图的形式呈现,观察是否符合一定规律(形似正态分布图像)。这个方法比较抽象,难以描述。
(2)S-W检验和K-S检验:小样本(小于50)时建议使用S-W检验,大样本(大于50)时建议使用K-S检验。使用软件进行统计学问题解决时会使用,基本上不要求手算。S-W检验小样本时可以进行手算。
(3)Q-Q图和P-P图:P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。而 Q-Q图是一个用图形的方式比较两个概率分布的概率图,如果两个分布相似,则该Q-Q图趋近于落在y=x线上。如果两分布线性相关,则点在Q-Q图上趋近于落在一条直线上,但不一定在y=x线上。(这两种方法一般都是在使用spss,matplotlib时采用的)
一、S-W检验步骤:
(1)建立假定,一般来说原假设都是服从正态分布;将元数据按升序排序后,计算总体方差SS
(2)根据
系数表
得出一系列系数ai(其中i取小于总体个数一半的正整数,如果总体个数为奇数则取(总体个数+1)/2)。
(3)计算xn-x1,x(n-1)-x2,…并计算a1*(xn-x1),a2*(x(n-1)-x2),…之和b。
(4)计算检验统计量W=b^2/ss,根据相应的n和显著性水平在
临界值表
中查找临界值进行单边检验,如果大于临界值则拒绝原假设。
全英文教程:
Shapiro-Wilk Original Test
手算进行S-W检验
Example1:
现对不同居民区的商场数量检验是否符合正态分布,检验过程如下:
最后的结论过程有一点点瑕疵,也可以通过得出0.95显著性水平下n=12时W为0.979大于我们得出的w值得出结论。
Example2:
需要对机器种类对装填量的影响是否显著进行方差分析,在方差分析前对基本的几个假定进行检验。其中,对正态分布假定检验的部分如下:
利用SPSS进行S-W检验或者画出直方图
注意只用在因变量列表放入你要检验的变量,而不用把因子放入列表中
可以同时输出k-s 检验和S-W检验的结果
结果如下:
结果如下,一般情况下原假设为不符合正态分布假定;备择假设为符合正态分布假定。因sig>显著性水平α时拒绝原假设,认为原数据符合正态分布性假定。
二、利用SPSS进行正态分布性假定检验
-
绘制Q-Q图
第一步
Q-Q图第二步
Q-Q图结果如下,结论是:不同种类的机器装填量数据基本符合正态分布。
P-P图结果:
- 进行k-s检验
k-s检验结果解读:画圈处代表的即sig,一般情况下原假设为不符合正态分布假定;备择假设为符合正态分布假定,因此sig>显著性水平α时拒绝原假设,认为原数据符合正态分布性假定。