目录
数据清洗
1.现有如下数据表格’data.xlsx’
date |
test_weather |
2022/1/1 |
24℃-3℃ |
2022/1/2 |
25℃-4℃ |
2022/1/3 |
26℃-5℃ |
2022/1/4 |
27℃-6℃ |
2022/1/5 |
28℃-7℃ |
29℃-8℃ |
|
30℃-9℃ |
|
31℃-10℃ |
|
32℃-11℃ |
|
33℃-12℃ |
|
34℃-13℃ |
|
35℃-14℃ |
|
36℃-15℃ |
|
37℃-16℃ |
|
2022/1/15 |
38℃-17℃ |
2022/1/16 |
39℃-18℃ |
2022/1/17 |
40℃-19℃ |
2022/1/18 |
41℃-20℃ |
2022/1/19 |
42℃-21℃ |
2022/1/20 |
43℃-22℃ |
44℃-23℃ |
|
45℃-24℃ |
|
46℃-25℃ |
|
47℃-26℃ |
|
48℃-27℃ |
|
49℃-28℃ |
|
50℃-29℃ |
|
2022/1/28 |
51℃-30℃ |
2022/1/29 |
52℃-31℃ |
2022/1/30 |
53℃-32℃ |
54℃-33℃ |
|
55℃-34℃ |
|
56℃-35℃ |
|
2022/2/3 |
57℃-36℃ |
2022/2/4 |
58℃-37℃ |
2022/2/5 |
59℃-38℃ |
1.1.把
test_weather字段拆分成两列字段(start,end)
1.2.把date字段中的数据修改为‘年-月-日’的形式
1.3.生成一段时间序列,将数据合并,把date字段填充
import pandas as pd
data = pd.read_excel(r"D:\DATA\data.xlsx")
#1.1
data['test_weather']=data['test_weather'].str.split("-").str[0]
data['end']=data['test_weather'].str.split("-").str[1]
#1.2
data['date']=data['date'].replace("/","-")
data['date']=pd.to_datetime(data['date'])
#1.3
df_order=pd.date_range("20220101","20220205")
data=pd.merge(left,data,on="date",how="left")
2. 现有如下数据表格 ‘51915导出.xls’
东营职业学院 |
浙江机电职业技术学院 |
山东劳动职业技术学院 |
西京学院 |
雅安职业技术学院 |
许昌职业技术学院 |
浙江广厦建设职业技术学院 |
长春健康职业学院 |
江苏工程职业技术学院 |
南通科技职业学院 |
武昌理工 |
贵州装备制造职业学院 |
新兴广播电视大学 |
山西经济管理干部学院 |
河北机电职业技术学院 |
江西制造职业技术学院 |
滁州学院 |
河南科技学院 |
四川城市职业学院 |
黄海学院 |
新兴广播电视大学 |
漯河职业技术学院 |
河南工程学院 |
北方工业大学 |
河南工业大学 |
河北软件职业技术学院 |
北京财贸职业学院 |
惠东开放大学 |
泉州信息工程学院 |
罗定职业技术学院 |
西南石油大学 |
常德职业技术学院(高职) |
湘潭大学 |
莆田学院 |
新乡医学院三全学院 |
上海杉达学院 |
南充职业技术学院 |
广州工商学院 |
重庆财经职业学院 |
信阳师范学院 |
曹妃甸职业技术学院 |
广州涉外经济职业技术学院 |
淄博职业学院 |
成都航空职业技术学院 |
安徽工业大学]工商学院 |
贵州电子信息职业技术学院 |
武汉工程职业技术学院 |
杭州万向职业技术学院 |
天津城市建设管理职业技术学院 |
武汉工程职业技术学院 |
大连工业大学 |
武汉工程职业技术学院 |
贺州学院 |
广州南洋理工职业学院 |
黄海学院 |
东营职业学院 |
佛山职业技术学院 |
湖北警官学院 |
广州城建职业学院 |
福州外语外贸学院 |
河北软件职业技术学院 |
聊城大学 |
亳州学院 |
四川城市职业学院 |
广州开放大学 |
北京邮电大学 |
长春健康职业学院 |
四川城市职业学院 |
安徽工业大学 |
重庆工程职业技术学院 |
宁波职业技术学院 |
辽宁科技学院 |
河北机电职业技术学院 |
江西应用科技学院 |
湖北工业大学 |
南通科技职业学院 |
河南省辅读职业中等专科学校 |
北京市昌平职业学校 |
武汉工程大学 |
武汉工商学院 |
武汉警官职业学院 |
广州工商学院 |
四川财经职业学院 |
临沂科技职业学院 |
财经大学 |
广东工商职业技术大学 |
临沂科技职业学院 |
河北环境工程学院 |
信阳师范学院 |
北京信息职业技术学院 |
重庆师范大学涉外商贸学院 |
青海省重工业职业技术学校 |
广东环境保护工程职业学院 |
山东劳动职业技术学院 |
安徽财贸职业学院 |
石家庄铁路职业技术学院 |
北京电子科技学院 |
陕西邮电职业技术学院 |
云南体育运动职业技术学院 |
晋中职业技术学院 |
湖南信息职业技术学院 |
武昌理工学院 |
湖北工程职业学院 |
娄底职业技术学院 |
郑州旅游职业学院 |
江西应用科技学院 |
怀化学院 |
山东工业职业学院 |
河北机电职业技术学院 |
柳州铁道职业技术学院 |
河北机电职业技术学院 |
集美大学诚毅学院 |
晋中职业技术学院 |
晋中职业技术学院 |
安庆职业技术学院 |
太原旅游职业学院 |
泉州信息工程学院工程学院 |
贵州工商职业学院 |
黎明职业大学 |
湖南三一工业职业技术学院 |
青岛黄海学院 |
沈阳工学院 |
山东劳动职业技术学院 |
河池学院 |
贵州工商职业学院 |
陕西学前师范学院 |
陕西学前师范学院 |
青岛工学院 |
阜阳师范学院 |
南充职业技术学院 |
常德职业技术学院 |
衢州学院 |
航空学院 |
安庆职业技术学院 |
浙江纺织服装职业技术学院 |
重庆电子工程职业学院 |
重庆理工大学 |
安徽工程大学 |
泉州职业技术大学 |
黑龙江职业学院 |
广东开放大学 |
福建江夏学院 |
沈阳航空航天大学 |
大连工业大学 |
成都理工大学 |
重庆第二师范学院 |
北京科技大学 |
重庆建筑工程职业学院 |
福州软件职业技术学院 |
重庆化工职业学院 |
河南省辅读职业中等专科学校 |
中国地质大学(武汉) |
北京电子科技职业学院 |
浙江纺织服装职业技术学院 |
华南师范大学 |
武汉晴川学院 |
天津城市建设管理职业技术学院 |
安庆职业技术学院 |
青岛黄海学院 |
北京工业大学 |
广东科技学院 |
四川天府新区信息职业学院 |
南京信息工程大学 |
郑州电子商务职业学院 |
北京城市学院 |
南京信息工程大学 |
四川城市职业学院 |
马鞍山学院 |
营口理工学院 |
西安外事学院 |
贵州航空职业技术学院 |
重庆水利电力职业技术学院 |
佳木斯职业学院 |
南京信息工程大学 |
贵州财经大学 |
长春健康职业学院 |
北部湾大学 |
北京城市学院 |
重庆建筑科技职业学院 |
广州城建职业学院 |
吉林农业大学 |
重庆邮电大学 |
肇庆医学高等专科学校 |
重庆青年职业技术学院 |
黑龙江职业学院 |
江西理工大学 |
亳州学院 |
青海省重工业职业技术学校 |
西安财经学院 |
百色职业学院 |
河南经贸职业学院 |
邯郸市美高旅游外事中等专业学校 |
惠州城市职业学院 |
武汉警官学院 |
西安外国语大学 |
安阳师范学院 |
杭州萧山技师学院 |
南充职业学院 |
四川天府新区信息职业学院 |
陕西工商职业学院 |
信阳学院 |
贵州财经大学 |
肇庆医学高等专科学校 |
安徽绿海商务职业学院 |
广州南洋理工职业学院 |
重庆公共运输职业学院 |
襄阳职业技术学院 |
泉州信息工程学院 |
黎明职业大学 |
山东劳动职业技术学院 |
吉首大学张家界学院 |
2.1.重复值与空值处理,并导出excel表格
2.2. 分别提取专科院校与本科院校,并导出excel表格
import pandas as pd
import pandas as pd
data=pd.read_excel(r"D:\DATA\51915导出.xls",header=None)
#2.1
data.dropna(inplace=True)
data.shape
data.drop_duplicates(inplace=True)
data.shape
data.to_excel(r'D:\DATA\51915去重去空.xls')
#2.2
df1=data[data.iloc[:,0].str.contains(pat='职业')==True]
df1.shape
df1.to_excel(r'D:\DATA\51915专科.xls')
df2 = data[data.iloc[:,0].str.contains("职业") == False]
df2.shape
df2.to_excel(r'D:\DATA\51915本科.xls')
3.如题:写出进行相应操作的代码
学号 | 姓名 | 性别 | 政治 | 历史 | 地理 |
11 | 许冬生 | 男 | 90 | 70 | 83 |
12 | 欧阳超 | 男 | 86 | 65 | 78 |
13 | 王楠 | 女 | 69 | 83 | 91 |
14 | 李秋明 | 男 | 81 | 88 | 82 |
15 | 周小洁 | 女 | 95 | 98 | 86 |
16 | 张小强 | 男 | 76 | 94 | 87 |
3.1.将数据存储到pandas的DataFrame中, 变量名为ci 3.2.查询政治和历史都大于70分的学生 3.3.通过计算得到每名学生三门科目的总分,放在“总分”字段中 3.4.按总分由高到低对学生进行排序(或者排名也可以) 3.5.求出每门科目所有学生的平均分 3.6.给每个学生的总分评级,放在“评级”字段中,总分小于240分的为C级,240分~270分之间为B级,大于270分的为A级
import pandas as pd
ci = pd.DataFrame({
'学号': [11, 12, 13, 14, 15, 16],
'姓名': ['许冬生', '欧阳超', '王楠', '李秋明', '周小洁', '张小强'],
'性别': ['男', '男', '女', '男', '女', '男'],
'政治': [90, 86, 69, 81, 95, 76],
'历史': [70, 65, 83, 88, 98, 94],
'地理': [83, 78, 91, 82, 86, 87],
})
print(ci)
print(ci[(ci['政治'] > 70) & (ci['历史'] > 70)])
ci['总分'] = ci.iloc[:, 3:].sum(axis=1)
print(ci)
print(ci.sort_values('总分', ascending=False))
ci['平均分'] = ci.iloc[:, 3:].mean(axis=1)
print(ci)
def grade_level(grade):
if grade > 270:
return 'A级'
elif grade >= 240 & grade <= 270:
return 'B级'
else:
return 'C级'
ci['评级'] = ci['总分'].apply(grade_level)
print(ci)
版权声明:本文为qq_53488289原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。