pandas练习 – 小飞侠

2. 现有如下数据表格 ‘51915导出.xls’

数据清洗

1.现有如下数据表格’data.xlsx’

date	test_weather
2022/1/1	24℃-3℃
2022/1/2	25℃-4℃
2022/1/3	26℃-5℃
2022/1/4	27℃-6℃
2022/1/5	28℃-7℃
	29℃-8℃
	30℃-9℃
	31℃-10℃
	32℃-11℃
	33℃-12℃
	34℃-13℃
	35℃-14℃
	36℃-15℃
	37℃-16℃
2022/1/15	38℃-17℃
2022/1/16	39℃-18℃
2022/1/17	40℃-19℃
2022/1/18	41℃-20℃
2022/1/19	42℃-21℃
2022/1/20	43℃-22℃
	44℃-23℃
	45℃-24℃
	46℃-25℃
	47℃-26℃
	48℃-27℃
	49℃-28℃
	50℃-29℃
2022/1/28	51℃-30℃
2022/1/29	52℃-31℃
2022/1/30	53℃-32℃
	54℃-33℃
	55℃-34℃
	56℃-35℃
2022/2/3	57℃-36℃
2022/2/4	58℃-37℃
2022/2/5	59℃-38℃

1.1.把

test_weather字段拆分成两列字段（start，end）

1.2.把date字段中的数据修改为‘年-月-日’的形式

1.3.生成一段时间序列，将数据合并，把date字段填充

import pandas as pd

data = pd.read_excel(r"D:\DATA\data.xlsx")

#1.1
data['test_weather']=data['test_weather'].str.split("-").str[0]
data['end']=data['test_weather'].str.split("-").str[1]
#1.2
data['date']=data['date'].replace("/","-")
data['date']=pd.to_datetime(data['date'])
#1.3
df_order=pd.date_range("20220101","20220205")
data=pd.merge(left,data,on="date",how="left")

2. 现有如下数据表格 ‘51915导出.xls’

东营职业学院

浙江机电职业技术学院

山东劳动职业技术学院

西京学院

雅安职业技术学院

许昌职业技术学院

浙江广厦建设职业技术学院

长春健康职业学院

江苏工程职业技术学院

南通科技职业学院

武昌理工

贵州装备制造职业学院

新兴广播电视大学

山西经济管理干部学院

河北机电职业技术学院

江西制造职业技术学院

滁州学院

河南科技学院

四川城市职业学院

黄海学院

新兴广播电视大学

漯河职业技术学院

河南工程学院

北方工业大学

河南工业大学

河北软件职业技术学院

北京财贸职业学院

惠东开放大学

泉州信息工程学院

罗定职业技术学院

西南石油大学

常德职业技术学院(高职)

湘潭大学

莆田学院

新乡医学院三全学院

上海杉达学院

南充职业技术学院

广州工商学院

重庆财经职业学院

信阳师范学院

曹妃甸职业技术学院

广州涉外经济职业技术学院

淄博职业学院

成都航空职业技术学院

安徽工业大学]工商学院

贵州电子信息职业技术学院

武汉工程职业技术学院

杭州万向职业技术学院

天津城市建设管理职业技术学院

武汉工程职业技术学院

大连工业大学

武汉工程职业技术学院

贺州学院

广州南洋理工职业学院

黄海学院

东营职业学院

佛山职业技术学院

湖北警官学院

广州城建职业学院

福州外语外贸学院

河北软件职业技术学院

聊城大学

亳州学院

四川城市职业学院

广州开放大学

北京邮电大学

长春健康职业学院

四川城市职业学院

安徽工业大学

重庆工程职业技术学院

宁波职业技术学院

辽宁科技学院

河北机电职业技术学院

江西应用科技学院

湖北工业大学

南通科技职业学院

河南省辅读职业中等专科学校

北京市昌平职业学校

武汉工程大学

武汉工商学院

武汉警官职业学院

广州工商学院

四川财经职业学院

临沂科技职业学院

财经大学

广东工商职业技术大学

临沂科技职业学院

河北环境工程学院

信阳师范学院

北京信息职业技术学院

重庆师范大学涉外商贸学院

青海省重工业职业技术学校

广东环境保护工程职业学院

山东劳动职业技术学院

安徽财贸职业学院

石家庄铁路职业技术学院

北京电子科技学院

陕西邮电职业技术学院

云南体育运动职业技术学院

晋中职业技术学院

湖南信息职业技术学院

武昌理工学院

湖北工程职业学院

娄底职业技术学院

郑州旅游职业学院

江西应用科技学院

怀化学院

山东工业职业学院

河北机电职业技术学院

柳州铁道职业技术学院

河北机电职业技术学院

集美大学诚毅学院

晋中职业技术学院

安庆职业技术学院

太原旅游职业学院

泉州信息工程学院工程学院

贵州工商职业学院

黎明职业大学

湖南三一工业职业技术学院

青岛黄海学院

沈阳工学院

山东劳动职业技术学院

河池学院

贵州工商职业学院

陕西学前师范学院

青岛工学院

阜阳师范学院

南充职业技术学院

常德职业技术学院

衢州学院

航空学院

安庆职业技术学院

浙江纺织服装职业技术学院

重庆电子工程职业学院

重庆理工大学

安徽工程大学

泉州职业技术大学

黑龙江职业学院

广东开放大学

福建江夏学院

沈阳航空航天大学

大连工业大学

成都理工大学

重庆第二师范学院

北京科技大学

重庆建筑工程职业学院

福州软件职业技术学院

重庆化工职业学院

河南省辅读职业中等专科学校

中国地质大学（武汉）

北京电子科技职业学院

浙江纺织服装职业技术学院

华南师范大学

武汉晴川学院

天津城市建设管理职业技术学院

安庆职业技术学院

青岛黄海学院

北京工业大学

广东科技学院

四川天府新区信息职业学院

南京信息工程大学

郑州电子商务职业学院

北京城市学院

南京信息工程大学

四川城市职业学院

马鞍山学院

营口理工学院

西安外事学院

贵州航空职业技术学院

重庆水利电力职业技术学院

佳木斯职业学院

南京信息工程大学

贵州财经大学

长春健康职业学院

北部湾大学

北京城市学院

重庆建筑科技职业学院

广州城建职业学院

吉林农业大学

重庆邮电大学

肇庆医学高等专科学校

重庆青年职业技术学院

黑龙江职业学院

江西理工大学

亳州学院

青海省重工业职业技术学校

西安财经学院

百色职业学院

河南经贸职业学院

邯郸市美高旅游外事中等专业学校

惠州城市职业学院

武汉警官学院

西安外国语大学

安阳师范学院

杭州萧山技师学院

南充职业学院

四川天府新区信息职业学院

陕西工商职业学院

信阳学院

贵州财经大学

肇庆医学高等专科学校

安徽绿海商务职业学院

广州南洋理工职业学院

重庆公共运输职业学院

襄阳职业技术学院

泉州信息工程学院

黎明职业大学

山东劳动职业技术学院

吉首大学张家界学院

2.1.重复值与空值处理，并导出excel表格

2.2. 分别提取专科院校与本科院校，并导出excel表格

import pandas as pd
import pandas as pd

data=pd.read_excel(r"D:\DATA\51915导出.xls",header=None)
#2.1
data.dropna(inplace=True)
data.shape
data.drop_duplicates(inplace=True)
data.shape
data.to_excel(r'D:\DATA\51915去重去空.xls')

#2.2
df1=data[data.iloc[:,0].str.contains(pat='职业')==True]
df1.shape
df1.to_excel(r'D:\DATA\51915专科.xls')

df2 = data[data.iloc[:,0].str.contains("职业") == False]
df2.shape
df2.to_excel(r'D:\DATA\51915本科.xls')

3.如题：写出进行相应操作的代码

学号	姓名	性别	政治	历史	地理
11	许冬生	男	90	70	83
12	欧阳超	男	86	65	78
13	王楠	女	69	83	91
14	李秋明	男	81	88	82
15	周小洁	女	95	98	86
16	张小强	男	76	94	87

3.1.将数据存储到pandas的DataFrame中， 变量名为ci
3.2.查询政治和历史都大于70分的学生
3.3.通过计算得到每名学生三门科目的总分，放在“总分”字段中
3.4.按总分由高到低对学生进行排序(或者排名也可以)
3.5.求出每门科目所有学生的平均分
3.6.给每个学生的总分评级，放在“评级”字段中，总分小于240分的为C级，240分~270分之间为B级，大于270分的为A级


import pandas as pd

ci = pd.DataFrame({
    '学号': [11, 12, 13, 14, 15, 16],
    '姓名': ['许冬生', '欧阳超', '王楠', '李秋明', '周小洁', '张小强'],
    '性别': ['男', '男', '女', '男', '女', '男'],
    '政治': [90, 86, 69, 81, 95, 76],
    '历史': [70, 65, 83, 88, 98, 94],
    '地理': [83, 78, 91, 82, 86, 87],
})
print(ci)
print(ci[(ci['政治'] > 70) & (ci['历史'] > 70)])
ci['总分'] = ci.iloc[:, 3:].sum(axis=1)
print(ci)
print(ci.sort_values('总分', ascending=False))
ci['平均分'] = ci.iloc[:, 3:].mean(axis=1)
print(ci)

def grade_level(grade):
    if grade > 270:
        return 'A级'
    elif grade >= 240 & grade <= 270:
        return 'B级'
    else:
        return 'C级'

ci['评级'] = ci['总分'].apply(grade_level)

print(ci)

原文链接：https://blog.csdn.net/qq_53488289/article/details/128290587

数据清洗

1.现有如下数据表格’data.xlsx’

2. 现有如下数据表格 ‘51915导出.xls’

3.如题：写出进行相应操作的代码

你可能也喜欢