数据挖掘 Chapter 4 – 数据仓库与联机分析处理

  • Post author:
  • Post category:其他




数据挖掘 Chapter 4 – 数据仓库与联机分析处理



数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程


与操作数据库系统(OLTP)的区别

OLTP是面向办事员、客户等人员的,而OLAP是面向市场用于知识工人的

OLTP事为已知任务和负载设计的,所以在操作数据库上处理OLAP查询,可能会大大降低操作任务的性能。



数据仓库建模:数据立方体与OLAP

数据立方体允许以多维对数据建模和观察

  • 维:一个单位想要记录的透视或实体

    • 例如:维time, item, branch
  • 事实:数值度量的,看做数量

    • 例如:dollars_sold, units_sold

数据立方体是对多维数据存储的一种比喻,由于我们可以将任意n维数据立方体显示成(n-1)维立方体的序列,所以数据立方体是n维的,不限于3-D

在这里插入图片描述

上图中往下参考的维越来越多,数据立方体的维数也越来越多



多维数据模型的模式
  • 星型
  • 雪花型
  • 事实星座


度量的分类和计算
  • 分布的:可以现在子集上计算再合并,如sum(),但是中位数就不是
  • 代数的:使用分布的聚集函数求得,如avg() = sum() / count()
  • 整体的 holistic:不存在一个具有M个参数的代数函数进行这一计算


典型的OLAP计算
  • 上卷:沿着一个维的概念分层向上攀升

  • 下钻:引入附加的维

  • 切片:在立方体的维上进行选择

  • 转轴:目视操作,转动数据的视角



reference

Han J. Data Mining: Concepts and Techniques[M]. 2005.



版权声明:本文为yfren1123原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。