在上一期中,作者和大家分享了数据标准化_z-score。今天给大家介绍一下如何对数据进行归一化处理。标准分(z-score)是指原始分数(即观察值或数据点)高于或低于所观察或测量的平均值的标准差的个数数。归一化则是将一个数据集中的数据都映射到某个特定区间(a,b)中,今天介绍的归一化处理方式利用了数据集中最大值和最小值,暂且称之为“最值归一化”吧,可以将所有数据映射到(0,1)区间内。
最值归一化公式:
Xscale:归一化后的数据
Xmax:原始数据集 中最大值
Xmin:原始数据集 中最小值
使用范围:最值归一化方法适用于原始数据集有明显边界,对于原始数据集中存在异常值,也就是边界数据与普遍数据相距过大时,该方法不适用。
不足:最值归一化最大问题就是当原始数据集中加入新数据的时候,数据集中最大值和最小值可能会发生相应变化,导致需要重新定义Xmax和Xmin。
当然了,我们处理数据时除了最值归一化外,还其它处理方法。比如对数据进行对数函数处理:
Xscale = log10(X)
注:以10为底进行对数转换
大家如果有其他好的数据处理方法,欢迎交流。