统计学与统计机器学习1–连续型变量相关性分析

  • Post author:
  • Post category:其他




一、简单相关性分析



1、变量间的关系分析

变量之间的关系可分为两类:函数关系、相关关系。



(1)函数关系


存在完全确定的关系



(2)相关关系


不存在完全确定的关系

:虽然变量间有着十分密切的关系,但是不能由一个或多个变量值精确的求出另一个变量的值,称为

相关关系

,存在相关关系的变量称为

相关变量



相关变量的关系也可分为两种:平行关系、依存关系



i、平行关系

  • 两个及以上变量间相互影响

  • 相关分析是研究呈平行关系的相关变量之间的关系



ii、依存关系

  • 一个变量变化受另一个变量的影响

  • 回归分析是研究呈依存关系的相关变量之间的关系



iii、两者关系

回归分析和相关分析都是研究变量之间关系的统计学课题,两种分析方法相互结合和渗透

在这里插入图片描述



2、简单相关分析


  • 相关分析

    :通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间的相关关系的密切程度和表现形式

  • 主要研究内容

    :现象之间是否相关、相关的方向、密切程度等,不区分自变量与因变量,也不关心各变量的构成形式

  • 主要分析方法

    :绘制相关图、计算相关系数、检验相关系数



(1)计算两变量之间的线性相关系数

  • 所有相关分析中

    最简单的就是两个变量间的线性相关

    ,一变量数值发生变动,另一变量数值会随之发生大致均等的变动,各点的分布在平面图上大概表现为一直线;

  • 线性相关分析

    ,就是用

    线性相关系数

    来衡量两变量的相关关系和密切程度
  • 给定二元总体(X,Y)

    • 总体相关系数用ρ表示:
    • 在这里插入图片描述
    • 在这里插入图片描述
    • 在这里插入图片描述
    • cov(X,Y)是x与y的协方差



i、协方差定义、柯西-施瓦尔兹不等式



a、协方差定义

设(X,Y)是二维随机变量,若E[(X-E(X))(Y-E(Y))]存在

则称cov(X,Y)=E[(X-E(X))(Y-E(Y))],叫X与Y的协方差,也叫X与Y的相关(中心)矩

即X的偏差(X-E(X))与Y的偏差(Y-E(Y))乘积的期望

解读:


  • 当cov(X,Y)>0

    ,X的偏差(X-E(X))与Y的偏差(Y-E(Y)),

    有同时增加或同时减少的倾向

    ,又由于E(X)和E(Y)都是常数,所以就能够等价于

    X与Y有同时增加或减少的倾向

    ,称

    X与Y正相关

  • 当cov(X,Y)<0

    ,X的偏差(X-E(X))与Y的偏差(Y-E(Y)),

    有X增加Y减少的倾向,或Y增加X减少的倾向

    ,称

    X与Y负相关

  • 当cov(X,Y)=0

    ,称

    X与Y不相关

    ,这时可能是

    X与Y取值毫无关联

    ,也可能是

    某种特殊的非线性关系


b、柯西-施瓦尔兹不等式

根据柯西-施瓦尔兹不等式

在这里插入图片描述

变形得ρx,y在区间[-1,1]

ρx,y是没有单位的,因为分子协方差的量纲除以了分母的与分子相同的量纲

  • 两变量线性相关性越密切,|ρx,y|越接近于1
  • 两变量线性相关性越低,|ρx,y|越接近于0
  • |ρx,y|=0的情况跟上面cov(X,Y)=0情况一样,两变量取值毫无关联或有某种特殊的非线性关系


协方差与相关系数的关系,就像绝对数与相对数的关系

(绝对数相当于统计中常用的总量指标;相对数是两个有联系的指标的比值,从数量上反应两个相互联系的现象之间的对比关系。)



ii、Pearson相关系数(样本线性相关系数)

一般用样本线性相关系数来估计总体线性相关系数,

数据必须服从正态分布


设(X,Y)是二元总体,简单随机抽样(x1,y1),(x2,y2),……(xn,yn)


样本均值:


在这里插入图片描述

在这里插入图片描述


样本方差:


在这里插入图片描述

在这里插入图片描述


样本协方差:


在这里插入图片描述


样本相关系数:


在这里插入图片描述

lxx为x的离差平方和,lyy为y的离差平方和,lxy为x与y离差乘积之和(可正可负)


实际计算可按下面简化:


在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

python代码(人的身高体重相关性关系):

import numpy as np
import matplotlib.pyplot as plt
x=np.array([171,175,159,155,152,158,154,164,168,166,159,164])
y = np.array([57,64,41,38,35,44,41,51,57,49,47,46])
np.corrcoef(x,y)
plt.scatter(x,y)
plt.show()

结果:

array([[1.        ,0.95930314],
       [0.95930314,1.        ]])

r>0,则体重和身高呈正相关性



注意:数据不服从正态分布时–spearman相关系数

皮尔森相关系数只能用于分析服从正态分布的连续变量的相关性,对于不服从正态分布的变量,可采用Sperman秩相关系数进行相关性分析。

Sperman秩相关系数,也称等级相关系数。如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。

计算逻辑:对两个变量的取值按照从小到大顺序编秩,如果两个值大小相等,则秩次为(index1+index2)/2,

不管Pearson还是spearman,都使用

pandas中的corr()函数



iii、ρ=0,相关系数的假设检验



a、引入假设检验的原因
  • r与其他统计指标一样,也会有抽样误差。从同一总体内抽取若干大小相同的样本,各样本的样本相关系数总会有波动。即根据样本数据是否有足够的证据得出总体相关系数不为0的结论(判断得出的结论是否准确的,不是假的)
  • 要判断不等于0的r值是来自总体相关系数ρ=0的总体,还是来自ρ不等于0的总体,

    必须进行显著性检验
  • 因为样本间没有线性相关性,可能会杂乱无章,也可能呈现出一些非线性关系(更高阶的关系pearson相关系数不能表示出来)
  • 所以r的显著性检验可以用

    双侧 t 检验

    来进行



iv、t-检验的解读



a、简历检验假设

在这里插入图片描述



b、构造 t 统计量,计算相关系数 r 的 t 值

在这里插入图片描述

此 t 近似服从t(n-2)分布,如果数据严格服从二元正态分布

在这里插入图片描述

Γ是gamma函数,F1(a,b;c;d)是高斯超几何函数

当总体相关系数ρ=0时(假定两个随机变量时正态相关的),

样本相关系数r的密度函数为:
在这里插入图片描述

B是beta函数,此密度函数碰巧就是统计量 t ,就是自由度为n-2的 t 分布;



c、计算 t 值和 P ,作结论

R语言中有cor.test()函数


相关系数的显著性是与自由度(n-2)有关,也就是与样本数量n有关。


样本量小,相关系数绝对值容易接近于1,样本量大,相关系数绝对值容易偏小;


所以,我们要拿到充分大的样本,就能把相关系数r作为总体相关系数ρ,这样就不必关心显著性检验的结果了。



3、深度探讨ρ=0

Pearson相关系数无法度量非线性关系的强度。



二、多变量相关性分析(一个因变量和多个自变量)

多变量基于双变量



1、偏相关或复相关


  • 简单相关

    :研究两变量之间的关系

  • 偏相关或复相关

    :研究三个或者三个以上变量的关系



2、意义与用途

有些时候,我们

只想了解两个变量之间是否有线性相关关系,并不想拟合建立它们的回归模型,也不需要区分自变量和因变量

,这时可用相关性分析。



3、分析方法



(1)样本相关系数矩阵、相关系数检验

设x1,x2…xn,来自正态总体Np(u,σ

2

)容量为n的样本,其中每个样本x有p各观测

分别计算两两样本之间的简单相关系数rij,它们构成的矩阵就是:

在这里插入图片描述

由于每个变量跟自己的相关系数就是1,即:

在这里插入图片描述

其中,(rij)pxp就是两个变量的简单相关系数

在这里插入图片描述

R语言中,使用cor(x) 得到相关系数矩阵,corr.test(x)进行相关系数检验(得到t检验矩阵),Probability values得到p值(置信度)矩阵



(2)复相关分析

  • 实际分析中,一个变量(y)往往要受到多种变量(x1,x2,…x4)的综合影响,

  • 所谓复相关,就是研究多个变量同时与某个变量的相关关系

  • 度量复相关程度的指标是复相关系数
  • 多个变量同时与某个变量的相关关系不能直接测算,只能

    通过间接测算


复相关系数的计算:

设因变量y,自变量x1,x2,…xp,构造一个线性模型为:

y=b0+b1x1+…+bpxp+ε

y帽=b0+b1x1+…+bpxp


对y与x1、x2…xp作相关分析,就是对y与y帽作简单相关分析


记:

  • ry.x1…xp为y与x1,x2…xp的复相关系数
  • ry.y帽为y与y帽的简单相关系数

ry.x1…xp的计算公式:

在这里插入图片描述

复相关系数常用于

多元线性回归分析

中,我们希望知道因变量与一组自变量之间的相关程度,即复相关,

复相关系数反映了一个变量与另一组变量的密切程度


假设检验:


与多元回归的方差分析一样

综上:

在这里插入图片描述



(3)决定系数R

2

(RMSE的介绍)

在复相关系数中,根号里面的比值
在这里插入图片描述

其实

说明了回归平方和与总离平方和的比值,反应了回归贡献的百分比




复相关系数两边平方一下就能得到决定系数


在这里插入图片描述


决定系数用于评价多元回归方程、变量选择、曲线回归方程拟合的好坏程度中。


注意:

  • R

    2



    相关性的度量,并不是准确性的度量
  • R

    2


    依赖于y的波动程度(样本方差),这会使得我们看待模型的好坏有着巨大影响

    ,例如,假设测试集y的方差是4.2,如果一个模型的RMSE=1,R

    2

    大致为76%,但是另一个测试集的方差是3,R

    2

    则变为67%。这样模型的好坏就决定于测试集的波动程度,所以这个十分不靠谱
  • 不明白上面的话,可以再看一个例子,如果我们建立了一个模型预测广州房价,如果测试集中广州房屋售价的波动范围较大——方差较大(40万-几千万),因为方差大,所以很可能导致 R

    2

    也比较大(假设 80%),但 RMSE可能十万,这对于广州房价预测来说是一个很糟糕的预测范围。


什么是RMSE:


RMSE

是回归问题的性能指标,衡量的是预测值与真实值之间的差距,是测量预测误差的标准差


在这里插入图片描述


举例子:

RMSE 等于 50000,根据【3σ 准则】意味着:

大约 68% 的预测值位于真实值的 50000元(1σ)以内,

大约 95% 的预测值位于真实值的 100000元 ( 2σ)以内,

大约 99.7% 的预测值位于真实值的 150000元内 ( 3σ )以内



4、小结

可以看出多变量相关分析跟回归分析的关系很密切,多变量相关分析能为回归分析服务,因为要具有相关性才有做线性回归拟合的价值



版权声明:本文为ANingL原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。