Person相关系数

  • Post author:
  • Post category:其他


衡量两个变量


线性相关


程度。先画


散点图


看是否为线性相关,相关系数才有用。

总体:要考察对象的全部个体

样本:从总体中所抽取的一部分个体

用样本的统计量估计总体的统计量

总体Person相关系数

协方差Cov(X,Y)反映X、Y的相关性

Person相关系数剔除了两个变量量纲的影响

ρ_xy=Cov(X,Y)/ σ_x * σ_y

样本Person相关系数

ρ绝对值越接近于1,散列图越接近一条直线,相关性越大。

若XY无关,则ρ为0,反之不能推。

相关系数大小可以按照背景自定义。

验证变量的线性相关性:

导入数据至SPSS中,图形-旧对话框-散点图/点图,做出数据之间的图,若图是以下这种斜着的一条就是线性的:

在MATLAB中计算:最小值,最大值,平均数等。得到描述性统计RESULT

MIN=min(A);
MAX=max(A);
MEAN=mean(A);
MEDIAN=median(A);
SKEWNESS=skewness(A);
KURTOSIS=kurtosis(A);
STD=std(A);
RESULT=[MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]
%RESULT存放描述性统计

[R,p]=corrcoef(A)

R存放相关系数


假设检验

自己提出假设,验证自己的假设是否正确。


置信水平β

=1-α:假设成立的概率(一般用90%,95%,99%)


α

显著性水平:发生小概率事件(拒绝原假设的概率)

概率密度函数

f(x)

:x发生在此的概率强度   1.f(x)>=0   2.在负无穷到无穷的积分为1。

累计密度函数

F(x)

:F(x)<=P(X<x)

接受域:置信水平内

拒绝域:其他地方。

概率P

第一步:确定原

假设H0

和备择假设H1(完全相反的两个假设)

双侧检验:~=

单侧检验:>或<

第二步:在原假设成立的条件下,自己

构造分布

(N、t、F、卡方分布)

统计量只能包含假设的一个未知量Z

第三步:画概率密度函数f(x)

第四步:给一个置信水平β ,求出

接受域(查表或用matlab算)

第五步:用已知样本数据带入计算统计量,得到

检验值

,若检验值在接受域内则接受原假设,反之拒绝。

双侧检验求出的P值要×2再与显著性水平α比较。


显著性检验

相关系数=0则不相关。

显著性检验:检验0和相关系数的差异

相关性显著–相关

相关性不显著–不相关。

计算出Person


相关系数r


,检验它是否显著的异于0:


第一步:

原定假设H0:r=0,备择假设:H1:r~=0


第二步:

在一定的条件下可以构造统计量

(t分布是标准正态分布的特例,n趋于无穷时即为标准正态分布)


第三步:

将r代入公式得到检验值。


第四步:

画出分布的概率密度函数pdf,给定一个置信水平β,找到临界值,画出统计量的接受域和拒绝域

%x=起始值:步长:终值;
%y=tpdf(x,自由度);
plot(x,y,'-')
grid on%画网格


第五步:

检验值在拒绝域内,H1成立;在接受域内,H0成立。

p值判断法

得到检验值t*,计算对应概率。

tcdf计算累计概率密度函数。

%检验值对应的p值=(1-tcdf(检验值,自由度)*2)
%双侧检验的p值要乘以2

p<0.01,在99%的置信水平上拒绝原假设;p>0.01,在99%的置信水平无法拒绝原假设

p<0.05,在95%的置信水平上拒绝原假设;p>0.05,在95%的置信水平无法拒绝原假设;

p<0.10,在90%的置信水平上拒绝原假设。p>0.10,在90%的置信水平无法拒绝原假设。

本例拒绝原假设意味着皮尔逊相关系数显著的异于0

显著性标记,空不显著 *在90%上越显著异于0 **95% ***99%

SPSS做相关性分析很方便。



版权声明:本文为l203018原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。