偏度这一指标,又称偏斜系数、偏态系数,是用来帮助判断数据序列的分布规律性的指标。
在数据序列呈对称分布(正态分布)的状态下,其均值、中位数和众数重合。且在这三个数的两侧,其它所有的数据完全以对称的方式左右分布。
如果数据序列的分布不对称,则均值、中位数和众数必定分处不同的位置。这时,若以均值为参照点,则要么位于均值左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称之为左偏;除此无它。
考虑到所有数据与均值之间的离差之和应为零这一约束,则当均值左侧数据较多的时候,均值的右侧必定存在数值较大的“离群”数据;同理,当均值右侧数据较多的时候,均值的左侧必定存在数值较小的“离群”数据。
一般将偏度定义为三阶中心矩与标准差的三次幂之比。
在上述定义下,偏度系数的取值无非三种情景:
1.当数据序列呈正态分布的时候,由于均值两侧的数据完全对称分布,其三阶中心矩必定为零,于是满足正态分布的数据序列的偏度系数必定等于零。
2.当数据序列非对称分布的时候,如果均值的左侧数据较多,则其右侧的“离群”数据对三阶中心矩的计算结果影响至巨,乃至于三阶中心矩取正值。因此,当数据的分布呈右偏的时候,其偏度系数将大于零。
3.当数据序列非对称分布的时候,如果均值的右侧数据较多,则其左侧的“离群”数据对三阶中心矩的计算结果影响至巨,乃至于三阶中心矩取负值。因此,当数据的分布呈左偏的时候,偏度系数将小于零。
在右偏的分布中,由于大部分数据都在均值的左侧,且均值的右侧存在“离群”数据,这就使得分布曲线的右