pandas库的亮点
:
-
一个
快速、高效的DataFrame对象
,用于数据操作和综合索引; -
用于在内存数据结构和不同格式之间
读写数据
的工具:
CSV和文本文件、Microsoft Excel、SQL数据库和快速HDF 5格式;
-
智能数据对齐和丢失数据的综合处理
:在计算中获得基于标签的自动对齐,并轻松地将凌乱的数据操作为有序的形式; -
数据集的灵活调整和旋转
; -
基于
智能标签的切片、花式索引和大型数据集的子集
; -
可以从数据结构中
插入和删除列
,以实现大小可变; -
通过在强大的引擎中聚合或转换数据,
允许对数据集进行拆分应用组合操作
; -
数据集的高性能合并和连接
; -
层次轴索引
提供了在低维数据结构中处理高维数据的直观方法; -
时间序列
功能:日期范围生成和频率转换、移动窗口统计、移动窗口线性回归、日期转换和滞后。甚至在不丢失数据的情况下创建特定领域的时间偏移和加入时间序列. -
Python与pandas在广泛的学术和商业领域中使用,包括
金融,神经科学,经济学,统计学,广告,网络分析,等等.
第十五部分 数据可视化
import numpy as np
import pandas as pd
# 1、线形图
df1 = pd.DataFrame(data = np.random.randn(1000,4),
index = pd.date_range(start = '27/6/2012',periods=1000),
columns=list('ABCD'))
df1.cumsum().plot()
# 2、条形图
df2 = pd.DataFrame(data = np.random.rand(10,4),
columns = list('ABCD'))
df2.plot.bar(stacked = True) # stacked 是否堆叠
# 3、饼图
df3 = pd.DataFrame(data = np.random.rand(4,2),
index = list('ABCD'),
columns=['One','Two'])
df3.plot.pie(subplots = True,figsize = (8,8))
# 4、散点图
df4 = pd.DataFrame(np.random.rand(50, 4), columns=list('ABCD'))
df4.plot.scatter(x='A', y='B') # A和B关系绘制
# 在一张图中绘制AC散点图,同时绘制BD散点图
ax = df4.plot.scatter(x='A', y='C', color='DarkBlue', label='Group 1');
df4.plot.scatter(x='B', y='D', color='DarkGreen', label='Group 2', ax=ax)
# 气泡图,散点有大小之分
df4.plot.scatter(x='A',y='B',s = df4['C']*200)
# 5、面积图
df5 = pd.DataFrame(data = np.random.rand(10, 4),
columns=list('ABCD'))
df5.plot.area(stacked = True);# stacked 是否堆叠
# 6、箱式图
df6 = pd.DataFrame(data = np.random.rand(10, 5),
columns=list('ABCDE'))
df6.plot.box()
# 7、直方图
df7 = pd.DataFrame({'A': np.random.randn(1000) + 1, 'B': np.random.randn(1000),
'C': np.random.randn(1000) - 1})
df7.plot.hist(alpha=0.5) #带透明度直方图
df7.plot.hist(stacked = True)# 堆叠图
df7.hist(figsize = (8,8)) # 子视图绘制
版权声明:本文为March_A原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。