一、简单相关性分析
1、变量间的关系分析
变量之间的关系可分为两类:函数关系、相关关系。
(1)函数关系
存在完全确定的关系
(2)相关关系
不存在完全确定的关系
:虽然变量间有着十分密切的关系,但是不能由一个或多个变量值精确的求出另一个变量的值,称为
相关关系
,存在相关关系的变量称为
相关变量
。
相关变量的关系也可分为两种:平行关系、依存关系
i、平行关系
- 两个及以上变量间相互影响
-
相关分析是研究呈平行关系的相关变量之间的关系
ii、依存关系
- 一个变量变化受另一个变量的影响
-
回归分析是研究呈依存关系的相关变量之间的关系
iii、两者关系
回归分析和相关分析都是研究变量之间关系的统计学课题,两种分析方法相互结合和渗透
2、简单相关分析
-
相关分析
:通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间的相关关系的密切程度和表现形式 -
主要研究内容
:现象之间是否相关、相关的方向、密切程度等,不区分自变量与因变量,也不关心各变量的构成形式 -
主要分析方法
:绘制相关图、计算相关系数、检验相关系数
(1)计算两变量之间的线性相关系数
-
所有相关分析中
最简单的就是两个变量间的线性相关
,一变量数值发生变动,另一变量数值会随之发生大致均等的变动,各点的分布在平面图上大概表现为一直线; -
线性相关分析
,就是用
线性相关系数
来衡量两变量的相关关系和密切程度 -
给定二元总体(X,Y)
- 总体相关系数用ρ表示:
- cov(X,Y)是x与y的协方差
i、协方差定义、柯西-施瓦尔兹不等式
a、协方差定义
设(X,Y)是二维随机变量,若E[(X-E(X))(Y-E(Y))]存在
则称cov(X,Y)=E[(X-E(X))(Y-E(Y))],叫X与Y的协方差,也叫X与Y的相关(中心)矩
即X的偏差(X-E(X))与Y的偏差(Y-E(Y))乘积的期望
解读:
-
当cov(X,Y)>0
,X的偏差(X-E(X))与Y的偏差(Y-E(Y)),
有同时增加或同时减少的倾向
,又由于E(X)和E(Y)都是常数,所以就能够等价于
X与Y有同时增加或减少的倾向
,称
X与Y正相关
-
当cov(X,Y)<0
,X的偏差(X-E(X))与Y的偏差(Y-E(Y)),
有X增加Y减少的倾向,或Y增加X减少的倾向
,称
X与Y负相关
-
当cov(X,Y)=0
,称
X与Y不相关
,这时可能是
X与Y取值毫无关联
,也可能是
某种特殊的非线性关系
b、柯西-施瓦尔兹不等式
根据柯西-施瓦尔兹不等式
变形得ρx,y在区间[-1,1]
ρx,y是没有单位的,因为分子协方差的量纲除以了分母的与分子相同的量纲
- 两变量线性相关性越密切,|ρx,y|越接近于1
- 两变量线性相关性越低,|ρx,y|越接近于0
- |ρx,y|=0的情况跟上面cov(X,Y)=0情况一样,两变量取值毫无关联或有某种特殊的非线性关系
协方差与相关系数的关系,就像绝对数与相对数的关系
(绝对数相当于统计中常用的总量指标;相对数是两个有联系的指标的比值,从数量上反应两个相互联系的现象之间的对比关系。)
ii、Pearson相关系数(样本线性相关系数)
一般用样本线性相关系数来估计总体线性相关系数,
数据必须服从正态分布
设(X,Y)是二元总体,简单随机抽样(x1,y1),(x2,y2),……(xn,yn)
样本均值:
样本方差:
样本协方差:
样本相关系数:
lxx为x的离差平方和,lyy为y的离差平方和,lxy为x与y离差乘积之和(可正可负)
实际计算可按下面简化:
python代码(人的身高体重相关性关系):
import numpy as np
import matplotlib.pyplot as plt
x=np.array([171,175,159,155,152,158,154,164,168,166,159,164])
y = np.array([57,64,41,38,35,44,41,51,57,49,47,46])
np.corrcoef(x,y)
plt.scatter(x,y)
plt.show()
结果:
array([[1. ,0.95930314],
[0.95930314,1. ]])
r>0,则体重和身高呈正相关性
注意:数据不服从正态分布时–spearman相关系数
皮尔森相关系数只能用于分析服从正态分布的连续变量的相关性,对于不服从正态分布的变量,可采用Sperman秩相关系数进行相关性分析。
Sperman秩相关系数,也称等级相关系数。如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。
计算逻辑:对两个变量的取值按照从小到大顺序编秩,如果两个值大小相等,则秩次为(index1+index2)/2,
不管Pearson还是spearman,都使用
pandas中的corr()函数
iii、ρ=0,相关系数的假设检验
a、引入假设检验的原因
- r与其他统计指标一样,也会有抽样误差。从同一总体内抽取若干大小相同的样本,各样本的样本相关系数总会有波动。即根据样本数据是否有足够的证据得出总体相关系数不为0的结论(判断得出的结论是否准确的,不是假的)
-
要判断不等于0的r值是来自总体相关系数ρ=0的总体,还是来自ρ不等于0的总体,
必须进行显著性检验
- 因为样本间没有线性相关性,可能会杂乱无章,也可能呈现出一些非线性关系(更高阶的关系pearson相关系数不能表示出来)
-
所以r的显著性检验可以用
双侧 t 检验
来进行
iv、t-检验的解读
a、简历检验假设
b、构造 t 统计量,计算相关系数 r 的 t 值
此 t 近似服从t(n-2)分布,如果数据严格服从二元正态分布
Γ是gamma函数,F1(a,b;c;d)是高斯超几何函数
当总体相关系数ρ=0时(假定两个随机变量时正态相关的),
样本相关系数r的密度函数为:
B是beta函数,此密度函数碰巧就是统计量 t ,就是自由度为n-2的 t 分布;
c、计算 t 值和 P ,作结论
R语言中有cor.test()函数
相关系数的显著性是与自由度(n-2)有关,也就是与样本数量n有关。
样本量小,相关系数绝对值容易接近于1,样本量大,相关系数绝对值容易偏小;
所以,我们要拿到充分大的样本,就能把相关系数r作为总体相关系数ρ,这样就不必关心显著性检验的结果了。
3、深度探讨ρ=0
Pearson相关系数无法度量非线性关系的强度。
二、多变量相关性分析(一个因变量和多个自变量)
多变量基于双变量
1、偏相关或复相关
-
简单相关
:研究两变量之间的关系 -
偏相关或复相关
:研究三个或者三个以上变量的关系
2、意义与用途
有些时候,我们
只想了解两个变量之间是否有线性相关关系,并不想拟合建立它们的回归模型,也不需要区分自变量和因变量
,这时可用相关性分析。
3、分析方法
(1)样本相关系数矩阵、相关系数检验
设x1,x2…xn,来自正态总体Np(u,σ
2
)容量为n的样本,其中每个样本x有p各观测
分别计算两两样本之间的简单相关系数rij,它们构成的矩阵就是:
由于每个变量跟自己的相关系数就是1,即:
其中,(rij)pxp就是两个变量的简单相关系数
R语言中,使用cor(x) 得到相关系数矩阵,corr.test(x)进行相关系数检验(得到t检验矩阵),Probability values得到p值(置信度)矩阵
(2)复相关分析
- 实际分析中,一个变量(y)往往要受到多种变量(x1,x2,…x4)的综合影响,
-
所谓复相关,就是研究多个变量同时与某个变量的相关关系
-
度量复相关程度的指标是复相关系数
-
多个变量同时与某个变量的相关关系不能直接测算,只能
通过间接测算
复相关系数的计算:
设因变量y,自变量x1,x2,…xp,构造一个线性模型为:
y=b0+b1x1+…+bpxp+ε
y帽=b0+b1x1+…+bpxp
对y与x1、x2…xp作相关分析,就是对y与y帽作简单相关分析
记:
- ry.x1…xp为y与x1,x2…xp的复相关系数
- ry.y帽为y与y帽的简单相关系数
ry.x1…xp的计算公式:
复相关系数常用于
多元线性回归分析
中,我们希望知道因变量与一组自变量之间的相关程度,即复相关,
复相关系数反映了一个变量与另一组变量的密切程度
。
假设检验:
与多元回归的方差分析一样
综上:
(3)决定系数R
2
(RMSE的介绍)
在复相关系数中,根号里面的比值
其实
说明了回归平方和与总离平方和的比值,反应了回归贡献的百分比
把
复相关系数两边平方一下就能得到决定系数
决定系数用于评价多元回归方程、变量选择、曲线回归方程拟合的好坏程度中。
注意:
-
R
2
是
相关性的度量,并不是准确性的度量
-
R
2
依赖于y的波动程度(样本方差),这会使得我们看待模型的好坏有着巨大影响
,例如,假设测试集y的方差是4.2,如果一个模型的RMSE=1,R
2
大致为76%,但是另一个测试集的方差是3,R
2
则变为67%。这样模型的好坏就决定于测试集的波动程度,所以这个十分不靠谱 -
不明白上面的话,可以再看一个例子,如果我们建立了一个模型预测广州房价,如果测试集中广州房屋售价的波动范围较大——方差较大(40万-几千万),因为方差大,所以很可能导致 R
2
也比较大(假设 80%),但 RMSE可能十万,这对于广州房价预测来说是一个很糟糕的预测范围。
什么是RMSE:
RMSE
是回归问题的性能指标,衡量的是预测值与真实值之间的差距,是测量预测误差的标准差
举例子:
RMSE 等于 50000,根据【3σ 准则】意味着:
大约 68% 的预测值位于真实值的 50000元(1σ)以内,
大约 95% 的预测值位于真实值的 100000元 ( 2σ)以内,
大约 99.7% 的预测值位于真实值的 150000元内 ( 3σ )以内
4、小结
可以看出多变量相关分析跟回归分析的关系很密切,多变量相关分析能为回归分析服务,因为要具有相关性才有做线性回归拟合的价值