python数据分析之数据清洗

  • Post author:
  • Post category:python


1.数据清洗步骤:识别并处理“缺失值”、“异常值”、“重复值”

.info( ) 函数: 快速浏览数据集并输出,无需print


对于缺失值:

1)可删除:通过

.drop(index=    ,inplace= True)

函数

2)可补全:通过

.fillna(value, inplace=True)

函数        “value是指对缺失所填充的值”


对于异常值:

1)使用条件表达式

<



==



> 进行筛选,比如单价price不可能出现负数,如果有负数便需要进行异常筛选和处理。如有DateFrame:

df[df["price"]<0]

便可得到异常的数据集


2)isin()函数 及其逆函数(函数前通过~取反):对列对象进行判断,传入的参数是列表,列表包含了多个判断值,函数返回True,False的布尔值。 如数据列中“支付方式”仅有“微信支付”、“支付宝支付”、“现金支付”、“银行卡支付”四种,除四种支付以为为异常,判断该数据列是否有异常值,可使用:

df[~df["支付方式"].isin(["微信支付","支付宝支付","现金支付","银行卡支付"])]

得到异常的数据集。



对于重复值:


使用pandas的duplicated()函数,函数输出结果是布尔型series,如果有重复值,则为True,

否则,返回False


注:数据清洗的步骤按(缺失值-异常值-重复值)的顺序一列一列进行。



版权声明:本文为Sunny_zrm原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。