python使用pandas分组统计一段时间长度的数据

Post author:xfxia
Post published:2023年10月10日
Post category:python

要实现的效果：对excel表中的数据，如果某个公司三个月内出现的次数超过３次，则将其筛选出来，注意三个月是指任何时间起点的三个月，而不是某月某日到某月某日的三个月。

原始表如下：

在这里插入图片描述

经过处理后结果表如下，广东bbbbb有限公司在三个月的时间内没有大于三条数据，所以被筛选掉了。

实现代码如下：

"""
分组统计一个时间段内的数据，如三个月内，但不限于某个时间起止，是任何三个月的长度内
"""

import pandas as pd
import openpyxl
import datetime
import numpy as np

df = pd.DataFrame(pd.read_excel('疑点数据.xlsx',sheet_name = 'Sheet1'))
#将str类型转为时间类型
df['录入日期'] = pd.to_datetime(df['录入日期'])

djxh = set()
#通过groupby进行分组
for groupName, groupDf in df.groupby('登记序号'):
    #遍历分组里的行
    for index,row in groupDf.iterrows():
        # + datetime.timedelta(days = 92)表示加上92天（三个月）
        startDate = pd.to_datetime(row['录入日期'])
        if groupDf[(startDate < groupDf['录入日期']) & (groupDf['录入日期'] <startDate + datetime.timedelta(days = 92))].count()['登记序号'] > 3:
            #符合条件的添加到集合当中
            djxh.add(groupName) 
        #这里只要符合条件的就退出循环，根据实际情况设置
        break

#筛选符合条件的数据，astype(str)转为str类型，空值将变为'nan',如果不转为str类型，int类型保存到excel时会丢失数据，最后几位变为0        
df2 = df[df['登记序号'].isin(djxh)].astype(str)
#将'nan'值替换为空，这样在excel中空值不保存为nan
df2 = df2.replace('nan', np.nan)
#保存到excel
df2.to_excel('结果.xlsx',index = False)

原文链接：https://blog.csdn.net/bin083/article/details/97683590

你可能也喜欢