大数据分析与挖掘-Part2-数据预处理

  • Post author:
  • Post category:其他




大数据分析与挖掘-Part2-数据预处理



为什么要进行数据预处理?

  • 初始数据集的准备与变化是数据挖掘的过程中重要步骤

  • 包含大量不完整,含噪声和不完整的数据是大数据应用中的典型特点

  • 数据的预处理能够有效提高数据质量,节约大量的时间和空间

  • 大部分数据挖掘算法对输入数据的格式,质量以及规模有一定的要求

  • 现实世界的数据是“脏的”

  • 随着数据规模的增加,会出现很多数据质量问题:


    不完整

    • 缺失值:缺乏某些重要属性,仅包含聚集数据


    噪声

    • 包含错误值,离群点


    不一致

    • 由于重复存放的数据未能进行一致性地更新造成的
    • 多用户系统,更新操作未能同步进行而引起
    • 由于各种故障,错误造成的
  • 没有有质量的数据,就没有有质量的挖掘结果(

    No quality data,No quality mining result!



评价数据质量的指标



完整性(Completeness)

记录的缺失,一个对象遗漏一个或多个属性值,有实体完整性,域完整性,参照完整性



一致性(Consistency)

多个数据间更新的同步,包括数据记录的规范和数据逻辑的一致性



时效性(Timeliness)

是否及时更新



可信性(Believability)



解释性(Interpretability)



数据的汇总统计

为量化的,用单个数或小集合捕获可能很大的值集的各种特征



描述数据集中趋势的度量



平均数

  • 优点:能够利用所有数据的特征,而且比较好算
  • 缺点:平均数容易受极端数据的影响。



中位数


  • 按数序排列

    的一组数据中居于中间位置的数据。
  • 它不受最大,最小两个极端数值的影响,部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用于描述这组数据的

    集中趋势。



众数

  • 在一组数据中出现次数最多的数据。
  • 适合数据量较多时使用,且不受极端值的影响
  • 当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,因为这类数据无法很好地定义算数平均数和中位数。



集中趋势到分布形态度量——偏度

  • 偏度是统计数据分布偏斜方向和程度的变量

在这里插入图片描述



描述数据离散程度的度量



极差

  • 极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示
  • 优点:能够体现一组数据波动的范围,极差越大,离散程度越大
  • 缺点:未能 利用全部测量值的信息,不能细致的反应测量值彼此相符合的程度。易受极端值的影响。



百分位数

  • k百分位数:将一组数据从小到大排序,并计算相应的累计百分位,如处于k%位置的值称为第k百分位数

  • k百分位数的计算

    当该百分位数位于第i与第j个数据之间时,可以使用几种插值方法来计算:线性插值、下界、上界、中点和最近邻。

    在这里插入图片描述



四分位数

  • Q1:第25百分位数;Q2:中位数 ;Q3:第75百分位数

  • 四分位距(Interquartile range

    IQR

    ):Q3-Q1

  • 经验公式:超过

    Q3+1.5xIQR

    或低于

    Q1-1.5xIQR

    的数据,可能是离群点。

在这里插入图片描述



五数概括法

  • 五数:最小值,Q1,中位数,Q3,最大值
  • 箱型图:对五数概括法的一种可视化的图形表示。

在这里插入图片描述

在这里插入图片描述



方差和标准差

  • 总体方差

    在这里插入图片描述

  • 样本方差

在这里插入图片描述


样本方差中的n-1的目的是让方差的估计是无偏的

  • 标准差:方差的算术平方

  • 分布状态

    • 方差大表示系统的要素两极分化大,方差小表示系统的要素基本处于中等位置,偏离小。
    • 方差大的系统要用分层次的策略应对,方差小的系统要用集中性的策略应对
  • 波动性:方差大的系统波动性大,方差小的系统稳定性好



离散系数

  • 离散系数又称为

    变异系数

    ,样本变异系数是

    样本标准差与样本平均数之比,用于判断数据之间差异的大小



度量的分类



分布式度量

  • 将函数用于n个聚集值得到的结果与将函数用于所有数据得到的结果一样
  • count(),sum(),min(),max()



代数度量

  • 可以通过在一个或多个分布式度量上应用一个代数函数而得到
  • avg(),min_N(),max_N(),standard_deviation()



整体度量

  • 必须对整个数据集计算的度量
  • 计算子聚集所需的存储没有常数界
  • median,mode,rank()



多元汇总:相关性分析



散点图

判断两个属性之间是否有相关性,可以首先通过散点图进行直观判断。



协方差

  • 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
  • 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。



线性相关

  • 对于非线性数据表现不佳



标称数据卡方相关检验

  • 卡方检验:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。卡方检验针对的是分类变量



数据预处理主要任务-数据清洗



数据清洗:去除噪声



数据平滑:分箱(Binning)

  • 存储的值被分布到一些桶或箱中
  • 分箱方法参考相邻的值,因此它进行局部平滑



分箱方法

  • 首先排序数据,并将它们分到等深(等宽)的箱中
  • 平滑各个分箱中的数据

    • 平均数平滑:箱中每一个值被箱的平均数替换
    • 中位数平滑:箱中每一个值被箱的中位数替换
    • 箱边界平滑,箱中每一个值被离它最近的箱边界值替换(左右两边的值)
  • 等深分箱

    • 按记录数(顺序的)进行分箱,每箱都有相同的记录数
    • 每箱的记录数为箱的

      权重

      ,也称为箱子的

      深度

在这里插入图片描述

  • 等宽分箱

    • 在整个属性值的区间上平均分布,即每个箱的区间范围设定为一个常量,称为箱子的宽度。
    • 数据排序后,用等宽度对数据分箱后进行平滑

在这里插入图片描述



数据清洗:缺失值填充



数据缺失的形式

  • 将数据集中不含缺失值的变量称为完全变量
  • 将数据中含有缺失值的变量称为不完全变量
  • 三种不同的数据缺失机制

    • ​ 完全随机缺失,数据的缺失与不完全变量已经完全变量是无关的
    • 随机缺失。数据的缺失仅仅依赖于完全变量
    • 非随机、不可忽略缺失。不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的



缺失值填充:回归填补法

把缺失属性作为因变量,其他相关属性作为自变量,利用他们之间的关系建立回归模型来预测 缺失值,以此完成缺失值插补的方法。

在这里插入图片描述



缺失值填充:均值填充法

  • 均值填充法

    • 将变量的属性分为数值型和非数值型来分别进行处理。
    • 如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值
    • 如果缺失值是非数值型的,则使用众数来补齐该缺失的变量值。
  • 这种方法是建立在

    完全随机缺失

    的假设之上的,而且会造成变量的方差和标准差变小。
  • 改进:局部均值填充

    • 用于元组属于同一个”类别“的元组的均值填充



缺失值填充:热卡填充

  • 对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。
  • 不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。
  • 缺点在于难以定义相似标准,主观因素多。



数据清洗:聚类去除噪声数据

相似的数据组成一个聚类,落在各个聚类之外的数据可以被看成是”噪声“



数据清洗:回归方法去除噪声

在这里插入图片描述



数据预处理主要任务:数据集成与变换



数据集成

  • 将多个数据源的数据集成和存贮
  • 实体识别

    • 来自多个数据源的现实世界的实体又是并不一定是匹配的
  • 数据值冲突检测与处理

    • 来自不同数据源的现实世界的同一个实体,属性值可能不同
    • 原因:编码、数据类型、单位、字段长度不同



数据集成:冗余

  • 有些属性的数据可以由另外的属性数据计算出来

    • 年收入可以由各月份的工资计算出来
    • 需要注意的是,冗余的属性也可能是为了提高统计查询效率而故意冗余的
  • 来自不同的数据源,由于属性名称的差异造成了冗余
  • 在进行数据集成的过程中,处理好冗余数据对提高数据挖掘的质量很有帮助



数据变换



零均值化

  • 将每一个属性的数据都减去这个属性的均值,变换后各属性的数据和与均值都为0
  • 多个属性经过零均值化变化后,都以0为均值分布,各属性的方差不发生变化,各属性间的协方差也不发生变化



二值化

  • 二值化是通过选定的阈值将连续的特征数据转化为0-1特征。当特征值小于或等于阈值时,特征值转化为0;当大于阈值时,特征值转化为1



分箱器

  • 分箱器可以将连续数据离散化到指定的范维空间进而映射成整数型数据。
  • 具体做法为:将自定义的分割区间封装成特征桶,输入的连续特征值根据所处的分割区间映射到该分割区间的桶索引。



最小-最大规范化

  • 当多个属性的数值分布区间相差较大时,使用最小-最大规范化可以让这些属性值变换到同一个区间,这对于属性间的比较以及计算对象之间的距离很重要。



z-score规范化

  • 标准分数也叫z分数
  • 是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差,或是在平均数之下多少个标准差
  • 它是一个抽象值,不受原始测量单位的影响,并可接受进一步的统计处理
  • 变化后,平均数近似为0
  • 标准差近似为1
  • 对满足不同正态分布的多个属性进行z-score变换,可以将这些正态分布都化成标准正态分布,充分利用标准正态分布的性质,对不同属性的数据进行分析和相互比较
  • 以标准差为度量单位,可计算数据偏离均值超过标准分的概率



独热编码

  • 又称一位有效编码,对标称属性(分类属性)进行编码
  • 如对颜色用数字进行编码
  • 独热编码还可以将每个标称属性进行扩充



数据预处理主要任务:数据归约

  • 数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。
  • 数据归约主要是两个途径:

    属性选择和数据采样



数据立方体聚集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C20yXVhz-1625484286983)(C:\Users\10571\Desktop\IMG_0439(20210705-182950)].PNG)



维归约

  • 维归约是从原有的维度中删除不重要或不相关
  • 或者通过对原有维度进行组合来减少特征的个数
  • 原则是在保留、甚至是提高原有判别能力的同时减少特征向量的维度。



数据降维(PCA)



特征向量合并

由于在原始数据集里,经常会包含一些非指标数据,为方便后续模型进行特征输入,需要将部分列的数据转换为特征向量,并统一命名。特征向量合并是一个转化器,可将多列数据转化为单列的向量列。



特征类别索引

  • 是对数据集特征向量中的标称属性(离散值)进行编号。能够自动判断离散值类型的特征,并对他们进行编号。
  • 具体做法是设置一个阈值,如果特征向量中某一个特征的不同取值的个数小于阈值,则认为他是标称属性,并被重新编号。
  • 类别特征索引可以提高决策树或随机森林等数据挖掘算法的分类效果



数量归约

  • 通过改变数据的表示形式,减小数据的规模
  • 分为有参数模型和无参数模型,无参数模型分为聚类,抽样,直方图
  • 水库抽样

    • 从一个包含n个数据的集合中,随机抽取k个样本
    • n是非常大或未知的数

      将部分列的数据转换为特征向量,并统一命名。特征向量合并是一个转化器,可将多列数据转化为单列的向量列。



特征类别索引

  • 是对数据集特征向量中的标称属性(离散值)进行编号。能够自动判断离散值类型的特征,并对他们进行编号。
  • 具体做法是设置一个阈值,如果特征向量中某一个特征的不同取值的个数小于阈值,则认为他是标称属性,并被重新编号。
  • 类别特征索引可以提高决策树或随机森林等数据挖掘算法的分类效果



数量归约

  • 通过改变数据的表示形式,减小数据的规模
  • 分为有参数模型和无参数模型,无参数模型分为聚类,抽样,直方图
  • 水库抽样

    • 从一个包含n个数据的集合中,随机抽取k个样本
    • n是非常大或未知的数
    • 要求仅扫描数据一次,扫描到前n个数据时(n>k),保存当前已扫描数据的k个均匀抽样



版权声明:本文为IncWu原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。