数据描述:Cosmetic surgery(整形手术)
In the USA, there was a 1600% increase in cosmetic surgical and non-surgical treatments between 1992 and 2002, and 65,000 people in the UK underwent privately and publicly funded operations in 2004 (Kellett, Clarke, & McGill, 2008). With the increasing popularity of this surgery, many people are starting to question the motives of those who want to go under the knife. There are two main reasons to have cosmetic surgery: (1) to help a physical problem, such as having breast reduction surgery to relieve back ache; and (2) to change your external appearance, for example by having a face-lift. Related to this second point, one day cosmetic surgery might be performed as a psychological intervention: to improve self-esteem (Cook, Rosser, & Salmon, 2006; Kellett et al., 2008). Our first example looks at the effects of cosmetic surgery on quality of life. The variables in the data file are
Post_QoL: This variable is a measure of quality of life after the cosmetic surgery(整形手术后的生活质量).
Base_QoL: Quality of life before the surgery.
Surgery: This dummy variable specifies whether the person has undergone cosmetic surgery (1) or whether they are on the waiting list (0).
Clinic: This variable specifies which of 10 clinics the person attended to have their surgery.
Age: This variable tells us the person’s age in years.
BDI: People volunteering for cosmetic surgery (especially when the surgery is purely for vanity) have different personality profiles than the general public (Cook, Rosser, Toone, James, & Salmon, 2006). In particular, these people might have low self-esteem or be depressed. When looking at quality of life it is important to assess natural levels of depression, and this variable used the Beck Depression Inventory (BDI) to do just that(BDI抑郁量表).
Reason: This dummy variable specifies whether the person had/is waiting to have surgery purely to change their appearance (0), or because of a physical reason (1).
Gender: This variable specifies whether the person was a man (1) or a woman (0).
本数据集有.sav(用于SPSS)与.dat(用于R)两种格式,你在答题过程中只允许使用一种格式的数据,例如,如果你首先使用了.dat格式的数据,你在答题过程中将不可以再使用.sav格式的数据,若答题中需要在SPSS中分析本数据集,你必须通过R的数据管理方法将.dat格式的数据导出到可以被SPSS导入的格式,并在答题中显示以上步骤。若违反此规定,你使用第二种格式数据集所解答的问题将不予计分。
以下全部问题,你可使用SPSS或者R甚至两者混合进行解答,但每种工具至少要被独立使用解决一个问题(小题)。
-
(25分) 任选数据集中的三个定类变量,完成以下问题:
-
(15分)请运用推断统计方法,分析此三个变量中任意两个变量之间的关系,基于此给出上述变量间的关系,给出你的操作的过程并说明理由及实际意义;
答:我选用诊所(clinic)、性别(Gender)和外科(Surgery)三个变量。
设:
H
0
:不同性别间接受过整容手术的情况无差别
H
1
:不同性别间接受过整容手术的情况有差别
操作步骤:分析—描述统计—交叉表,将“
Gender
”选入“行变量”,“Surgery”选入“列变量”,在“统计”中勾选“卡方”“相关性”,点击确定。
输出结果如下图:
表1是统计概要说明,表明有效数据有276个,系统缺失值为0个。
表2是交叉表。
表3为卡方检验表,标下的注释解释了有0个单元格的期望频次小于5,满足实验要求,卡方检验是有效的。其中皮尔逊卡方值为24.941,皮尔逊卡方值的检验的显著性水平为0.000,小于0.05,因此接受原假设H0,拒绝备择假设H1。说明不同性别间接受过整容手术的情况有显著差异。结合表2交叉表,可以看出女性在是否接受整形手术的情况上等待的人数占比要高于男性,说明女性在是否接受整形手术方面相比较于男性更纠结,或者说更加难以决定。
-
(10分) 针对你选择的三个变量,用统计作图方法描述展示三个变量间的关系,并基于此描述统计给出目标数据的特点分析。
操作步骤:打开spss文件,点击菜单栏“分析”—“描述统计”—“频率”,将“性别”“年龄”选入变量框中,在“图表”选项中勾选“条形图”,“图表值”选择“频率”。
输出结果:
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
以上的图表展示的是年龄、外科手术与性别三个变量之间的频数关系。下面进行描述统计分析。
步骤:打开spss文件,点击菜单栏“分析”—“描述统计”—“描述”,将“性别”“年龄”“外科手术”选入变量框中,在“选项”选项中勾选“方差”,“图表值”选择“频率”,点击确定。结果如下:
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
在输出结果中,变量是按照选择的顺序排列的。由于3个变量都没有缺失值,所以有效数据均为276个。以年龄为例,年龄的最小值为18,最大值为65,平均值为39.17,方差为123.099.
-
(35分) 自行选择本数据集中的若干变量,回答以下问题:
-
(8分) 选择一个尺度变量,分别利用描述及推断统计方法判断其是否服从正态分布;
答:
我选择年龄(age)来说明。
首先通过描述统计方法说明。操作步骤是打开spss文件,点击菜单栏“分析”—“描述统计”—“频率”,将“年龄”选入变量框中,在“图表”选项中勾选“条形图”,“图表值”选择“频率”。输出如下:
直观看,年龄服从正态分布。
接下来进行推断统计方法。设
H0:年龄服从正态分布
H1:年龄不服从正态分布
点击分析-非参数检验-1sample K-S,从左侧选择age进入对话框,点击确定。
输出结果如下:
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
||
|
从图中看出,检验统计的值为0.101,双尾检验的显著性水平为0.000,小于0.05.因此应拒绝总体的年龄服从正态分布的假设。
-
(12分) 除了正态性,通常参数检验方法还需要数据满足哪几类前提条件;
答:(1)
单因素方差分析前提条件
正态性检验,独立性检验,方差齐性
(
2)
多因素方差分析前提条件
正态性检验,独立性检验,方差齐性
(
3
)简单相关分析
A
参数方法(Pearson方法)
要求所有变量均服从正态分布
B
非参数方法(Spearman方法)
适用于不服从正态分布的变量
ps:偏相关分析和复相关分析均要求服从正态分布(Pearson方法)
(
4
)线性回归分析的前提条件
A
自变量之间相互独立
检验方法:多重共线性检验,检验指标为容许度(Tolerance)和方差膨胀因子(VIF)
B
残差独立且服从正态分布
检验方法:一是作图法,二是DW(Durbin-Watson)检验,三是Runs检验
C
自变量和因变量之间的关系是线性的
检验方法:一是作图法,二是t检验,三是F检验与可决系数
-
(15分) 通过检索数据集形成一个数据子集,要求此子集中仅包含:术后生活质量高于55,年龄小于35的女性患者的信息;同时,此数据子集中不许包含诊所信息及BDI指数;请将这个子集存为单独的数据文件提交。
答:具体文件
提交为“第2题第3问输出文件”
。
-
(40分) 任选数据集中的变量进行线性回归分析,并回答以下问题:
-
(8分)假设你建立的线性模型是由一个尺度变量和一个定类变量组成,根据以往学习内容请分辨二者谁是因变量/自变量,简要阐述分析二者关系所用的方法的原理及使用此方法时数据需要满足的前提条件;
答:定类变量是自变量,尺度变量是因变量。线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是一次方)。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
前提条件:(1)自变量与因变量是否呈直线关系。(2)因变量是否符合正态分布。(3)因变量数值之间是否独立。(4)方差是否齐性。
其实如果正规地来说,应该是看残差(residual)是否正态、独立以及方差齐。
-
(16分)不考虑上一问,建立你自己的线性回归模型,简述你的操作的过程,并描述此模型的实际意义;
以Post_QoL(后生活质量)为因变量,年龄(age)、Base_QoL(基本生活质量)为自变量进行多元回归分析。
操作过程:首先将“年龄”“基本生活质量”设置为数值变量。点击分析—回归—线性,将“后生活质量”填入因变量框,将“年龄”和“基本生活质量”填入自变量框。在统计中选择“模型拟合”“R
2
”“描述”“共线性诊断”,回归系数选择“估算值”,在“图”中勾选“直方图”和“正态概率图”,点击确认。
输出结果如下:
其中,系数回归表如下:
|
|||||||||||
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
由此可知,
Baseline Quality of Life
(
基本生活质量)的回归系数B=0.353,显著性为0,小于0.05,说明随着基本生活质量的增加,后生活质量随之提高,结果有统计学意义。
而年龄的回归系数仅为0.088,显著性为0.041,小于0.05,说明年龄对后生活质量的影响不是很显著,结果也具有统计学意义。
所以回归模型为:
Post_QoL=37.703+0.088Age+0.353Base_QoL
-
(16分)请给出模型有效性分析。
根据2题输出结果。结果分析:
|
||||||||||
|
|
|
|
|
|
|
||||
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
||||||
|
|
|
|
|
||
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(1)由R
2
=0.238,可知,该回归模型拟合良好。
(2)由ANOVA方差分析可知,F=26.598,显著性为0.000小于0.01,可知数据呈正态分布,符合回归分析要求。
(3)由共线性诊断结果可知,特征值=2.951,说明自变量间不存在共线性问题。
(4)由残差图和累计概率图可知,残差基本呈正态分布,模型拟合良好。