缺失值的处理是一件艺术活,最高的境界应该是缺而不失。pandas中提供了非常丰富的工具来对缺失值进行处理。这里主要是对常用方法的简要介绍。
注:不同地区和软件对缺失值的表示方法不同,在用pandas读取文件时可指定缺失值的形式给参数na_values,如:
missing_values = [‘n/a’, ‘na’, ‘–‘]
df = pd.read_csv(‘文件名‘, na_values = missing_values)
缺失值处理常用策略:
对有缺失值的行和列简单的删除;
对缺失值进行计算,如用变量的平均值或众数进行填充;
在缺失值周围建立模型,然后用模型提供的值进行填充。
一、缺失值的删除
1.数据集中缺失值的统计
2.检查某列是否有缺失值
3.删除某列中有缺失值的行
4.删除有缺失值的行
如果需要某行全部是缺失值才删除时,可以添加参数how = ‘all’, axis = 0
二、缺失值的计算
通常比较常用的填充缺失值的方法有计算变量的平均值、中位数和众数,更高级一点的是用K-NN和baye
版权声明:本文为weixin_32340879原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。