Roar | 作者
知乎 | 来源
https://zhuanlan.zhihu.com/p/51935629
首先这一讲的内容是描述性统计分析,我觉得有必要弄清什么是描述性统计,于是去google了一下
得到如下答案:
描述统计(Descriptive statistics):
描述统计是通过图表或数学方法,
对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法
。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
首先描述统计是通过图表或数学方法,这里提到了要用图表,那么图表又有哪几类呢?再一次google得到常用的
如下几种常用的图
(所有图形均来自常见的图表)
1
常用图
1.柱形图
定义:
显示一段时间内的
数据变化
或显示
各项之间的比较情况
,主要使用颜色进行类型区分。XY轴的二维空间体现。
主要用于比较各组数据之间的差别或数据变化情况。
当然柱形图也一个大类,下面还可以细分出多种衍生的柱形图,同样,其他类型的图表也都有很多细分的图表。这里由于篇幅的原因,不一一列出。
2.折线图
定义:
显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。
主要用于
趋势分析
。
3.饼图
定义:
显示每一数值相对于总数值的大小。
主要用于各部分占整体的多少说明。
建议:
饼图不超过8块,百分比按一定规则顺时针排序
4.散点图
定义:
散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。顾名思义,就是散落的点去表达信息。
主要用于
查找变量之间的相关性。
注意:
此处经常可以使用一些数学的的方法去转换,使得散点图具有某种相关性
5.雷达图
定义:
集中划在一个圆形的图表上,来表现一个整体中的各项个体比率的情况。
主要用于
各项指标整体情况分析
。
建议:
指标不要超过20项
6.地图
定义:
按一定的比例运用符号、颜色、文字注记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图形。
主要用于体现
地理位置
上各项数据的情况。
7.矩形树图
主要用于整体中各个
子项目占整体的多少
。
8.桑基图
定义:
它是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,通常应用于
能源、材料成分、金融
等数据的可视化分析。
桑基图最明显的特征就是,始末端的分支宽度总各相等,即
所有主支宽度的总和应与所有分出去的分支宽度的总和相等,
保持
能量的平衡
。
电商进行流量来源去向分析时,常用桑基图表示。
9.漏斗图
电商领域中,主要是基于用户行为步骤,查看转化率情况。
10.箱线图
定义:
常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。
这里的箱线图就是根据四分位数得到的,可以比较直观的得到一组数据的聚集程度。
2
估计和描述的方法
数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。
这部分要求利用统计的方法知道某一产品更贴合哪一种分布,从而利用相关的
数学模型
去进一步分析相关的问题。
3
集中趋势分析、离中趋势分析和相关分析
1.集中趋势分析
集中趋势是用来
描述舆论现象的重要统计分析指标
,常用的有平均数、中位数和众数等。
2.离散趋势
是指一组数据背离分布中心值的特征,反映
各变量值远离其中心值的程度。
常用指标有极差、四分位数间距、方差、标准差、标准误差和变异系数等。
3.相关分析
是描述客观事物
相互间关系的密切程度并用适当的统计指标表示出来的过程。
常见的包含正相关和负相关。价格和购买量的关系一般来说是正相关,不过实际问题中有很多的因素要
具体问题要具体分析。
–
END –
本文为转载分享&推荐阅读,若侵权请联系后台删除
后台回复“入群”即可加入小z数据干货交流群