pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法

缺失值的处理是一件艺术活，最高的境界应该是缺而不失。pandas中提供了非常丰富的工具来对缺失值进行处理。这里主要是对常用方法的简要介绍。

注：不同地区和软件对缺失值的表示方法不同，在用pandas读取文件时可指定缺失值的形式给参数na_values,如：

missing_values = [‘n/a’, ‘na’, ‘–‘]

df = pd.read_csv(‘文件名‘， na_values = missing_values)

缺失值处理常用策略：

对有缺失值的行和列简单的删除；

对缺失值进行计算，如用变量的平均值或众数进行填充；

在缺失值周围建立模型，然后用模型提供的值进行填充。

一、缺失值的删除

1.数据集中缺失值的统计

2.检查某列是否有缺失值

3.删除某列中有缺失值的行

4.删除有缺失值的行

如果需要某行全部是缺失值才删除时，可以添加参数how = ‘all’, axis = 0

二、缺失值的计算

通常比较常用的填充缺失值的方法有计算变量的平均值、中位数和众数，更高级一点的是用K-NN和baye