padas数据清洗

Post author:xfxia
Post published:2023年11月28日
Post category:其他

numpy 的使用

list和numpy互转

# list 转 numpy
array_data = np.array(list_data)
# np array 转 list
list_data = array_data.tolist()

numpy中numpy array存储和读取.npy

# 存储：
import numpy as np
numpy_array = np.array([1,2,3])
np.save('log.npy',numpy_array )

# 读取：
import numpy as np
numpy_array = np.load('log.npy')

numpy.mean()的几种用法（按行求均值，按列求均值）

import numpy as np
x = np.array([1,2,3,4,5])
y = np.array([0,2,3,4,6])
z = np.array([[1,2],[3,4]])#二维数组
np.mean(x==y)#返回条件成立的占比
Out[5]: 0.59999999999999998
np.mean(x)#均值
Out[6]: 3.0

np.mean(z)
Out[10]: 2.5
np.mean(z,axis=0)#按列求均值
Out[11]: array([ 2.,  3.])
np.mean(z,axis=1)#按行求均值
Out[12]: array([ 1.5,  3.5])

padas 的使用

pandas取某几列

import pandas as pd

data = pd.read_csv("dirty_data.csv")
data = data.iloc[:, 0:13]  # 按位置取某几列

pandas 读写csv （解决读取csv遇到编码问题不能读取）

DF = pandas.read_csv(r'test.csv',encoding='gbk')
DF.to_csv(r'test.csv',encoding='gbk')

# 如果读取csv遇到编码问题不能读取
def preprocess(path):
    try:
        pd.read_csv(path)
    except Exception:
        with open(path,'r',errors='ignore') as f:
            contents=f.read()
        f.close()    
        with open(path,'w',encoding='utf-8') as f:
            f.write(contents)
        f.close()     
    # Read files
    data = pd.read_csv(path)
    frame_data = DataFrame(data)