箱形图
又称为盒须图,显示了一组数据的分散情况,可用来快速识别异常值。
(1)中位数:一组数据按顺序排列,居于中间位置的数,即为中位数。
如果这组数据一共有n个,X1,X2……Xn,
如果n为奇数,中位数则为X(n+1)/2
如果n为偶数,中位数则为中间两个数的平均值,(X(n/2)+X(n/2+1))/2
(2)上四分位数Qu:一组数据中有四分之一的数值比它大
(3)下四分位数Ql:一组数据中有四分之一的数值比它小
(4)四分位距Qr:Qu-Ql
(5)上界:Qu+1.5Qr
(6)下界:Ql-1.5Qr
此练习使用一份网上流传甚广的链家二手房数据,查看各区的二手房的单价和面价分布情况。
1、Tableau连接到链家二手房源数据,查看数据会发现,每隔一行都会有一行空行。
添加筛选器剔除null值,经分析发现Id是唯一不会为空的一列,对ID列进行筛选。
2、从列中选择-取消对null的勾选
3、创建计算字段Unit Price:
[Price]/[Size]
4、将区Region拖拽到列,单价Unit Price拖拽到行,智能显示选择盒须图(如果此时行列发成变化的话,进行调整),Id拖拽到详细信息。
5、分析-聚合度量,取消勾选
6、离群点的分析:
可以看到大多数Unit Price都在100以下,超过100的离群点显然不合常理。
将户型拖拽到详细信息,选中这些离群点,右键-查看数据,可以看到这些Unit Price很高的户型都是叠拼别墅,如果不需要这部分数据,可以在数据源处添加筛选器去掉。