python数据分析之数据清洗

Post author:xfxia
Post published:2023年8月22日
Post category:python

1.数据清洗步骤：识别并处理“缺失值”、“异常值”、“重复值”

.info( ) 函数：快速浏览数据集并输出，无需print

对于缺失值：

1）可删除：通过

.drop(index= ,inplace= True)

函数

2）可补全：通过

.fillna(value, inplace=True)

函数 “value是指对缺失所填充的值”

对于异常值：

1）使用条件表达式
<
、
==
、
> 进行筛选，比如单价price不可能出现负数，如果有负数便需要进行异常筛选和处理。如有DateFrame: df[df["price"]<0] 便可得到异常的数据集

2）isin()函数及其逆函数（函数前通过~取反）：对列对象进行判断，传入的参数是列表，列表包含了多个判断值，函数返回True，False的布尔值。如数据列中“支付方式”仅有“微信支付”、“支付宝支付”、“现金支付”、“银行卡支付”四种，除四种支付以为为异常，判断该数据列是否有异常值，可使用： df[~df["支付方式"].isin(["微信支付","支付宝支付","现金支付","银行卡支付"])] 得到异常的数据集。

对于重复值：

使用pandas的duplicated()函数，函数输出结果是布尔型series，如果有重复值，则为True，

否则，返回False

注：数据清洗的步骤按（缺失值-异常值-重复值)的顺序一列一列进行。

原文链接：https://blog.csdn.net/Sunny_zrm/article/details/120130563

你可能也喜欢