1.数据清洗步骤:识别并处理“缺失值”、“异常值”、“重复值”
.info( ) 函数: 快速浏览数据集并输出,无需print
对于缺失值:
1)可删除:通过
.drop(index= ,inplace= True)
函数
2)可补全:通过
.fillna(value, inplace=True)
函数 “value是指对缺失所填充的值”
对于异常值:
1)使用条件表达式
<
、
==
、
> 进行筛选,比如单价price不可能出现负数,如果有负数便需要进行异常筛选和处理。如有DateFrame:
df[df["price"]<0]
便可得到异常的数据集
2)isin()函数 及其逆函数(函数前通过~取反):对列对象进行判断,传入的参数是列表,列表包含了多个判断值,函数返回True,False的布尔值。 如数据列中“支付方式”仅有“微信支付”、“支付宝支付”、“现金支付”、“银行卡支付”四种,除四种支付以为为异常,判断该数据列是否有异常值,可使用:
df[~df["支付方式"].isin(["微信支付","支付宝支付","现金支付","银行卡支付"])]
得到异常的数据集。
对于重复值:
使用pandas的duplicated()函数,函数输出结果是布尔型series,如果有重复值,则为True,
否则,返回False
注:数据清洗的步骤按(缺失值-异常值-重复值)的顺序一列一列进行。