Pandas 数据结构

  • Post author:
  • Post category:其他


1、Pandas Series对象

#1、Series对象:类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型

#2、创建Series对象:
a = [1,2,3,4,'a']
data1 = pd.Series(a)
print(data)
n = [1,2,3,4,5]
data2 = pd.Series(data,index = n)
print(data2)

#通过字典创建对象(key为索引,values为值)
dict = {'age':23,'name':'tanyangtong'}
data = pd.Series(dict)
print(data)

#3、获取数据

#获取索引数组
print(data2.index)
#获取元素数组
print(data2.values)

#获取指定下标和指定索引元素
print(data1[0],data1['a'])

#指定下标范围元素
print(data1[0:4])

#指定多个索引获取元素
print(data1[['a','b']])

#4、修改Series对象

#通过下标修改
data1[0]=100
print(data1)

#通过索引修改
data1['b']=1000
print(data1)

#布尔索引
data2[[data2>3]]

4、Series常用属性
sum()
mean()
max()
min()
count()
std()
var()
medium()

describle()

5、统计重复值个数
value_count()

6、去除重复项
unique

7、判断空值
isnull、notnull

8、删除控制和填充空值
dropna、fillna(inplace)

9、将满足添加替换
mask()

10、将不满足条件替换
where()

11、修改数据
map()

12、取头取尾
nlargest()
nsmallest()

2、pandas DataFrame对象

1、DataFrame对象:是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)

2、ndarray对象创建
n = np.random.randint(1,10,(5,4))
data = pd.DataFrame(n,index=['a','b','c','d','e'],columns=['i','j','k','m'])
print(data)

data2 = pd.DataFrame({'a':[1,2,3,4,5,6],'b':[1,2,3,4,5,6],'c':[7,8,9,10,11,12]})
print(data2)

3、字典创建
n = {'a':1,'b':2}
m = {'a':3,'d':5}
data = pd.DataFrame([n,m],index=['e','f'])
print(data)

4、查看列数据类型
print(data.dtypes)
print(data.dtypes['i'])

5、查看头尾
print(data.head())
print(data.tail(2))

6、查看行名
print(data.index)
查看列名
print(data.columns)

7、查看数据
print(data.values)
查看列数据
print(data['i'])

8、查看行数据
print(data.loc['a'])
print(data.iloc[0])

9、#查看行列数
print(data.shape)
print(data.shape[0])
print(data.shape[1])



版权声明:本文为weixin_50528299原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。