数据挖掘 Chapter 4 – 数据仓库与联机分析处理
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程
与操作数据库系统(OLTP)的区别
OLTP是面向办事员、客户等人员的,而OLAP是面向市场用于知识工人的
OLTP事为已知任务和负载设计的,所以在操作数据库上处理OLAP查询,可能会大大降低操作任务的性能。
数据仓库建模:数据立方体与OLAP
数据立方体允许以多维对数据建模和观察
-
维:一个单位想要记录的透视或实体
- 例如:维time, item, branch
-
事实:数值度量的,看做数量
- 例如:dollars_sold, units_sold
数据立方体是对多维数据存储的一种比喻,由于我们可以将任意n维数据立方体显示成(n-1)维立方体的序列,所以数据立方体是n维的,不限于3-D
上图中往下参考的维越来越多,数据立方体的维数也越来越多
多维数据模型的模式
- 星型
- 雪花型
- 事实星座
度量的分类和计算
- 分布的:可以现在子集上计算再合并,如sum(),但是中位数就不是
- 代数的:使用分布的聚集函数求得,如avg() = sum() / count()
- 整体的 holistic:不存在一个具有M个参数的代数函数进行这一计算
典型的OLAP计算
-
上卷:沿着一个维的概念分层向上攀升
-
下钻:引入附加的维
-
切片:在立方体的维上进行选择
-
转轴:目视操作,转动数据的视角
reference
Han J. Data Mining: Concepts and Techniques[M]. 2005.
版权声明:本文为yfren1123原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。