Question

有一个访问日期表,有不同的客户身份。下表如下。一些客户在一行走了几天,停留了几天,然后又回到了几天。我想计算每个客户的连续天数。就我而言,每个客户可能连续几天。例如,客户1连续3天,连续4天。我如何能够获得所有这些连续日的数字,然后获得最大的数字?

id  visit_date
1   1/2/2022
1   1/3/2022
1   1/4/2022
1   1/7/2022
1   1/8/2022
1   1/9/2022
1   1/10/2022
2   1/1/2022
2   1/2/2022
2   1/4/2022
2   1/6/2022
2   1/7/2022
2   1/8/2022
2   1/9/2022
2   1/10/2022
3   1/3/2022
3   1/4/2022
3   1/5/2022
4   1/3/2022
4   1/4/2022
4   1/8/2022

我尝试了不同的方法,我没有找到任何解决办法。我期望:

id  consecutive_days
1   3
1   4
2   2
2   5
3   2
4   0

我赞赏你的帮助!

感谢。

Answer 1

假设每个客户的收受日期都在定购单中,你确实可以发现各行之间有差异,然后将各行各行各行各占一席。

consecutive_days_per_id = df.groupby( id ).apply(lambda group: (pd.to_datetime(group[ date ]).dt.day.diff() == 1).sum())

注:如果你的栏目已经为时日,你可以忽略“定时”部分。

Answer 2

<><><>>>>

grp = pd.to_datetime(df[ visit_date ]).diff().ne( 1day ).cumsum()

out = (df.groupby([ id , grp]).size()[lambda x: x > 1]
       .droplevel(1).reset_index(name= consecutive_days )
)

注:

    id  consecutive_days
0   1   3
1   1   4
2   2   2
3   2   5
4   3   3
5   4   2

Answer 3

(df.assign(c = pd.to_datetime(df[ visit_date ]).diff().ne( 1 day ).cumsum())
   .groupby([ id ,  c ], as_index = False)
   .count().loc[lambda x: x.visit_date>1]
   .drop(columns =  c )
   .rename(columns = { visit_date : consecutive_days }))

   id  consecutive_days
0   1                 3
1   1                 4
2   2                 2
4   2                 5
5   3                 3
6   4                 2

友情链接