如何使用 pandas 计算另一列中每个值在一列中出现的次数？

Question

我有一个 dataframe 具有唯一索引和列“用户”、“推文时间”和“推文 ID”。

我想计算每个用户重复的 tweet_time 值的数量。

users = ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C']
tweet_times = ['01-01-01 01:00', '02-02-02 02:00', '03-03-03 03:00', '09-09-09 09:00',
               '04-04-04 04:00', '04-04-04 04:00', '05-05-05 05:00', '09-09-09 09:00',
               '06-06-06 06:00', '06-06-06 06:00', '07-07-07 07:00', '07-07-07 07:00']

d = {'users': users, 'tweet_times': tweet_times} 
df = pd.DataFrame(data=d)

所需 Output

答：0

乙：1

C：2

我设法使用下面的代码获得所需的 output（A：0 除外）。 但是有没有更蟒蛇/有效的方法来做到这一点？

# group by both columns
df2 = pd.DataFrame(df.groupby(['users', 'tweet_times']).tweet_id.count())

# filter out values < 2
df3 = df2[df2.tweet_id > 1]

# turn multi-index level 1 into column
df3.reset_index(level=[1], inplace=True)

# final groupby
df3.groupby('users').tweet_times.count()

Answer 1

我们可以使用crosstab创建频率表，然后检查大于1的计数以创建 boolean 掩码，然后沿axis=1将此掩码sum

pd.crosstab(df['users'], df['tweet_times']).gt(1).sum(1)

 users
A    0
B    1
C    2
dtype: int64

Answer 2

这行得通，

df1 = pd.DataFrame(df.groupby(['users'])['tweet_times'].value_counts()).reset_index(level = 0)
df1.groupby('users')['tweet_times'].apply(lambda x: sum(x>1))

users
A    0
B    1
C    2
Name: tweet_times, dtype: int64

Answer 3

您可以将自定义 boolean 与您的groupby一起使用。

当一个值重复时， keep=False返回 True，否则返回 false。

# df['tweet_times'] = pd.to_datetime(df['tweet_times'],errors='coerce')

df.groupby([df.duplicated(subset=['tweet_times'],keep=False),'users']
                                                 ).nunique().loc[True]

       tweet_times
users             
A                0
B                1
C                2

Answer 4

可能有一个更简单的方法，但这是我现在能想到的：）

df.groupby("users")["tweet_times"].agg(lambda x: x.count() - x.nunique()).rename("count_dupe")

Output：

users
A    0
B    1
C    2
Name: count_dupe, dtype: int64

Answer 5

这对我来说看起来很pythonic：

df.groupby("users")["tweet_times"].count() - df.groupby("users")["tweet_times"].nunique()

Output：

users
A    0
B    1
C    2
Name: tweet_times, dtype: int64

如何使用 pandas 计算另一列中每个值在一列中出现的次数？

问题描述

5 个解决方案

解决方案1
4 已采纳 2021-05-11 15:20:33

解决方案2
1 2021-05-11 15:14:33

解决方案3
1 2021-05-11 15:19:53

解决方案4
0 2021-05-11 15:17:15

解决方案5
0 2021-05-11 15:21:15

如何使用 pandas 计算另一列中每个值在一列中出现的次数？

问题描述

5 个解决方案

解决方案1 4 已采纳 2021-05-11 15:20:33

解决方案2 1 2021-05-11 15:14:33

解决方案3 1 2021-05-11 15:19:53

解决方案4 0 2021-05-11 15:17:15

解决方案5 0 2021-05-11 15:21:15

解决方案1
4 已采纳 2021-05-11 15:20:33

解决方案2
1 2021-05-11 15:14:33

解决方案3
1 2021-05-11 15:19:53

解决方案4
0 2021-05-11 15:17:15

解决方案5
0 2021-05-11 15:21:15