数据挖掘之数据预分析的简单流程

  • Post author:
  • Post category:其他




1.什么是EDA

EDA即数据探索性分析,在数据挖掘建立模型解决问题之前对数据集进行探索性分析,熟悉数据集,了解数据集各属性之间的大致关系和基本特征,为之后的建模,调试做准备。



2.载入数据

常用的库有pandas、numpy、matplotlib、seabon。pandas、numpy为数据科学库,matplotlib、seabon为数据可视化库。其中pandas侧重于数据分析,numpy侧重于处理多维数值型数组,重点在于进行数值运算。Seaborn跟matplotlib最大的区别就是它的默认绘图风格和色彩搭配都具有现代美感,其实是在matplotlib的基础上进行了更高级的API封装。

import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
data = pd.read_csv(r'文件路径', sep=' ')#sep代表文件属性间的分割方式



3.总览数据概况



3.1简略观察数据

观察数据的整体情况,行数,列数,各属性名称及代表的含义。只有了解了数据的总体情况,才能在后面的建模中做到心中有数,减少犯错。



3.2简略观察数据统计量

利用*

data.describe()

*观察每列数据的统计量,例如个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断,



版权声明:本文为qq_44949310原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。