统计学之描述性统计（一）

1、描述性统计分析

描述性统计分析主要是对所收集的数据进行分析，得出反映客观现象的各种数量特征的一种分析方法，它包括数据的集中趋势分析、数据离散程度分析、数据的频数分布分析等，描述性统计分析是对数据进一步分析的基础。

2、数据的集中趋势

集中趋势又称 “数据的中心位置”,它是一组数据的代表值。集中趋势的概念就是平均数(Average)的概念，它能够对总体的某一特征具有代表性，表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。

2.1平均数

算术平均数（Arithmetic mean）：

统计学术语，是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。是数据中心趋势的主要度量指标。对于由n个数据组成的X，平均值是总和除以总量（N）：

在这里插入图片描述

加权平均数

:是不同比重数据的平均数，加权平均数就是把原始数据按照合理的比例来计算。

若n个数据中，X1出现f1次，X2出现f2次，…，Xk出现fk次，那么：

叫做X1,X2,…,Xk的加权平均数。f1,f2，…，fk分别是X1,X2,…，Xk的权，其中f1+f2+…+fk=n。

几何平均数（Geometric mean）

：是n个数据的连乘积的开n次方根，那么对于数据X1，X2，…，Xn的几何平均数为：

在这里插入图片描述

2.2中位数（Median）：

代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

对于定量数据X，中位数是数值大小位于中间（奇偶总量处理不同）的值：

在这里插入图片描述

2.3 众数（Mode）：

在统计分布上具有明显集中趋势点的数值，代表数据的一般水平（众数可以不存在或多于一个）。另有定义就是一组数据中出现次数最多的数值，叫众数，有时众数在一组数中有好几个。对于定性数据来说，众数是出现次数最多的值。

3、数据的离散程度

数据的离散程度即衡量一组数据的分散程度如何，其衡量的标准和方式有很多，而具体选择哪一种方式则需要依据实际的数据要求进行抉择。主要包括以下方式：

3.1数值型数据：方差、标准差、极差、平均差

3.1.1方差（Variance）和标准差（Standard Deviation）

方差

是在概率论与统计方差衡量随机变量或一组数据时离散程度的变量。统计中的方差（样本方差）是各个数据分别与其平均值之差的平方的和的平均数。

标准差

是方差的算术平方根。它反映的也是数组内个体间的离散程度。

对于一组数据X1，X2，…，Xn，则方差为：

在这里插入图片描述

标准差为：

3.1.2极差（Range）

是指一组测量值内最大值与最小值只差，又称范围误差或全距。它是标志值变动的最大范围，它是测定标志变动的最简单的指标。即：

在这里插入图片描述

3.1.3平均差

是对一组数据中各个变量与其算术平均数的离差绝对值的算术平均数。它综合反映了总体各变量的变动程度。平均差越大，则表示标志变动度越大，反之则表示标志变动度越小。一组n个数据X1，X2，…，Xn。则平均差为：

在这里插入图片描述

3.2 顺序数据：四分位差