【R语言】【可视化】 之 Mosaic Plot(马赛克图)

  • Post author:
  • Post category:其他


Mosaic plot常常用来展示Categorical data(分类数据)(关于不同的数据类别,参照连接更严谨英文比较好的朋友可以看[1]),mosaic plot 强大的地方在于它能够很好的展示出2个或者多个分类型变量(categorical variable)的关系. 它也可以定义为用图像的方式展示分类型数据。

当变量是类别变量时,且数目多于三个的时候,可使用马赛克图。马赛克图中,嵌套矩阵面积正比于单元格频率,其中该频率即多维列联表中的频率。颜色和阴影可表示拟合模型的残差值。

vcd包中的mosaic()函数可以绘制马赛克图

base包中的mosaicplot()也可绘制马赛克图。

以 base中的Titanic数据集为例

ftable(Titanic)  
library(vcd)  
mosaic(Titanic,shade=TRUE,legend=TRUE)  

这里写图片描述

图11-23 按船舱等级、乘客性别和年龄层绘制的泰坦尼克号幸存者的马赛克图另见彩插图11-23)

马赛克图隐含着大量的数据信息。例如:(1)从船员到头等舱,存活率陡然提高;(2)大部分孩子都处在三等舱和二等舱中;(3)在头等舱中的大部分女性都存活了下来,而三等舱中仅有一半女性存活;(4)船员中女性很少,导致该组的Survived标签重叠(图底部的No和Yes)。继续观察,你将发现更多有趣的信息。关注矩形的相对宽度和高度,你还能发现那晚其他什么秘密吗?

扩展的马赛克图添加了颜色和阴影来表示拟合模型的残差值。在本例中,蓝色阴影表明,在假定生存率与船舱等级、性别和年龄层无关的条件下,该类别下的生存率通常超过预期值。红色阴影则含义相反。一定要运行该例子的代码,这样你可以真实感受下着色图形的效果。图形表明,在模型的独立条件下,头等舱女性存活数和男性船员死亡数超过模型预期值。如果存活数与船舱等级、性别和年龄层独立,三等舱男性的存活数比模型预期值低。尝试运行example(mosaic),可以了解更多马赛克图的细节。



版权声明:本文为tobeyourlover原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。