pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法

  • Post author:
  • Post category:其他


缺失值的处理是一件艺术活,最高的境界应该是缺而不失。pandas中提供了非常丰富的工具来对缺失值进行处理。这里主要是对常用方法的简要介绍。

注:不同地区和软件对缺失值的表示方法不同,在用pandas读取文件时可指定缺失值的形式给参数na_values,如:

missing_values = [‘n/a’, ‘na’, ‘–‘]

df = pd.read_csv(‘文件名‘, na_values = missing_values)

缺失值处理常用策略:

对有缺失值的行和列简单的删除;

对缺失值进行计算,如用变量的平均值或众数进行填充;

在缺失值周围建立模型,然后用模型提供的值进行填充。

一、缺失值的删除

1.数据集中缺失值的统计

2.检查某列是否有缺失值

3.删除某列中有缺失值的行

4.删除有缺失值的行

如果需要某行全部是缺失值才删除时,可以添加参数how = ‘all’, axis = 0

二、缺失值的计算

通常比较常用的填充缺失值的方法有计算变量的平均值、中位数和众数,更高级一点的是用K-NN和baye



版权声明:本文为weixin_32340879原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。