stata上课笔记 | 数据分析部分

Post author:xfxia
Post published:2023年9月22日
Post category:其他

接上一个笔记生成新变量

生成所有我们需要的变量后，就需要开始对数据进行分析，但是并不是一上来就进行回归分析

还需要对变量之间的关系进行初步的分析再开始回归

数据分布

直方图

这个我在之前的文章里有写，这里再简单的写一下

https://blog.csdn.net/Clytie_Lion/article/details/123811416?spm=1001.2014.3001.5502

hist roa_w if $samp & roa_w>-0.2,freq norm

其中hist的默认纵坐标是各个值的概率，用freq可以显示具体的数量，而 norm则是在图形中显示正态分布曲线，即下图中的蓝色曲线，可以清晰的看出roa在蓝色线内的左下方是空白的，而在0处集中了大量了数值，这也在一定程度上显示了企业在0临界值进行盈余管理的行为

描述性统计

最简单的描述性统计

**#设置样本条件
global samp miss==0 & ind!="I" 
**#设置变量
global dep ln_audfee
global exp BigFour
global ctrl ln_ta lev roa mod

tabstat $exp $dep $ctrl if $samp , s(n mean sd min q max) c(s)

s()中是我们需要列示的统计量

目前我们的解释变量属于是01变量

那么我们还可以进行分组描述性统计以观察分组的数据特征，作为回归分析的前期初步检验

tabstat $dep $ctrl if $samp ,by($exp) s(n mean sd min q max) c(s)

组间差异检验

ttest

组间差异的检验，相比上上一个分组的描述性统计简单对比数字，ttest提供了一个更为专业的检验，检验制定变量在不同组别之间的差异

unequal指的是两个分组样本的方差不相等

同时，ttest的默认置信水平是95%，可以通过level(99)设置不同的置信区间

**#ttest检验组间差异
foreach i in $dep  $ctrl{
	ttest `i' if $samp, by ($exp) unequal
}
foreach i in $dep  $ctrl{
	ttest `i' if $samp, by ($exp) unequal level(99)
}

结果如下，大部分是只需要看最后一行的p值，可以看出两个样本之间的均值是显著不相等，且为0的样本显著大于为1的样本

更详细的ttest检验可以看连玉君老师的这篇文章

Stata：多个变量组间均值\中位数差异检验

https://zhuanlan.zhihu.com/p/78666638

ranksum()

秩和检验实际上就是把所有的数值进行排序获得一个等级排序，前提假设是分组样本在总体分布位置相同，主要适用于当变量不符合正态分布的情况

**#ranksum
foreach i in $dep  $ctrl{
	ranksum `i' if $samp, by ($exp)
}

最后看p值拒绝原假设，即两个样本的分布并不平均

皮尔逊卡方检验

当制定变量也是虚拟变量时，可以通过tab中的chi2进行皮尔逊卡方检验

下面的mod是审计意见的代理变量，为01变量，所以可以采用tab 自带的chi2检验

**#对于虚拟变量的皮尔逊检验
tab  BigFour mod,row chi2

结果显示如下，同样观察最后一行，结果显示p<0.01拒绝原假设，即拒绝mod 和bigfour之间是独立分布的。

散点图与直线图

将散点图与拟合直线放在同一张图上，以观察初步的回归关系

下方代码中间的||代表第二张图并列一同显示的意思

具体的美观调整等可以help sactter或者help lfit自行调整

**#scatter & lfit
scatter ln_audfee ln_ta if $samp , msize(tiny) || lfit ln_audfee ln_ta

原文链接：https://blog.csdn.net/Clytie_Lion/article/details/128261389