『描述统计学×可视化图表』常用图表选择指南

  • Post author:
  • Post category:其他


Roar | 作者

知乎 | 来源

https://zhuanlan.zhihu.com/p/51935629


首先这一讲的内容是描述性统计分析,我觉得有必要弄清什么是描述性统计,于是去google了一下

得到如下答案:


描述统计(Descriptive statistics):

描述统计是通过图表或数学方法,

对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法

。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

首先描述统计是通过图表或数学方法,这里提到了要用图表,那么图表又有哪几类呢?再一次google得到常用的

如下几种常用的图

(所有图形均来自常见的图表)



1


常用图


1.柱形图


定义:

显示一段时间内的

数据变化

或显示

各项之间的比较情况

,主要使用颜色进行类型区分。XY轴的二维空间体现。



主要用于比较各组数据之间的差别或数据变化情况。

当然柱形图也一个大类,下面还可以细分出多种衍生的柱形图,同样,其他类型的图表也都有很多细分的图表。这里由于篇幅的原因,不一一列出。


2.折线图


定义:

显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。


主要用于

趋势分析


3.饼图


定义:

显示每一数值相对于总数值的大小。



主要用于各部分占整体的多少说明。


建议:

饼图不超过8块,百分比按一定规则顺时针排序


4.散点图


定义:

散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。顾名思义,就是散落的点去表达信息。


主要用于

查找变量之间的相关性。


注意:

此处经常可以使用一些数学的的方法去转换,使得散点图具有某种相关性


5.雷达图


定义:

集中划在一个圆形的图表上,来表现一个整体中的各项个体比率的情况。


主要用于

各项指标整体情况分析


建议:

指标不要超过20项


6.地图


定义:

按一定的比例运用符号、颜色、文字注记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图形。


主要用于体现

地理位置

上各项数据的情况。


7.矩形树图

主要用于整体中各个

子项目占整体的多少


8.桑基图


定义:

它是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,通常应用于

能源、材料成分、金融

等数据的可视化分析。

桑基图最明显的特征就是,始末端的分支宽度总各相等,即

所有主支宽度的总和应与所有分出去的分支宽度的总和相等,

保持

能量的平衡

电商进行流量来源去向分析时,常用桑基图表示。


9.漏斗图

电商领域中,主要是基于用户行为步骤,查看转化率情况。


10.箱线图


定义:

常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。

这里的箱线图就是根据四分位数得到的,可以比较直观的得到一组数据的聚集程度。



2


估计和描述的方法

数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。

这部分要求利用统计的方法知道某一产品更贴合哪一种分布,从而利用相关的

数学模型

去进一步分析相关的问题。



3


集中趋势分析、离中趋势分析和相关分析


1.集中趋势分析

集中趋势是用来

描述舆论现象的重要统计分析指标

,常用的有平均数、中位数和众数等。


2.离散趋势

是指一组数据背离分布中心值的特征,反映

各变量值远离其中心值的程度。

常用指标有极差、四分位数间距、方差、标准差、标准误差和变异系数等。


3.相关分析

是描述客观事物

相互间关系的密切程度并用适当的统计指标表示出来的过程。

常见的包含正相关和负相关。价格和购买量的关系一般来说是正相关,不过实际问题中有很多的因素要

具体问题要具体分析。





END –

本文为转载分享&推荐阅读,若侵权请联系后台删除



Python数据可视化教程实战!



取数,取数,取个屁啊!

后台回复“入群”即可加入小z数据干货交流群