机器学习:数据预处理之独热编码(One-Hot)

  • Post author:
  • Post category:其他


在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等。

这些特征值并不是连续的,而是离散的,无序的。通常我们需要对其进行特征数字化。

那什么是特征数字化呢?例子如下:

  • 性别特征:[“男”,”女”]

  • 祖国特征:[“中国”,”美国,”法国”]

  • 运动特征:[“足球”,”篮球”,”羽毛球”,”乒乓球”]

假如某个样本(某个人),他的特征是这样的[“男”,”中国”,”乒乓球”],我们可以用 [0,0,4] 来表示,但是这样的特征处理并不能直接放入机器学习算法中。因为类别之间是无序的(运动数据就是任意排序的)。

什么是独热编码(One-Hot)?

————————————————————————————————————————

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表