Python Pandas groupby多列

Question

谢谢您的帮助。

我的数据看起来像这样：

city,  room_type
A, X
A, Y
A, Z
B, X
B, Y
B, Y

我希望我的最终结果看起来像这样：

city, count(X), count(Y), count(z) 
A,  1, 1, 1
B,  1, 2, 0

我按城市分组，我想显示每个城市中每个room_type的数量。

用python pandas做任何方法吗？ 谢谢。

我在几年前学过SQL，并认为它可能是可能的。 我相信python可以做同样的事情。 谢谢！

Answer 1

您可以使用带有rename列的crosstab表：

df = pd.crosstab(df.city, df.room_type).rename(columns=lambda x: 'count({})'.format(x))
print (df)
room_type  count(X)  count(Y)  count(Z)
city                                   
A                 1         1         1
B                 1         2         0

使用groupby和size或value_counts进行重新groupby另一个解决方案是使用unstack ：

df = df.groupby(['city', 'room_type']).size().unstack(fill_value=0)
       .rename(columns=lambda x: 'count({})'.format(x))
print (df)
room_type  count(X)  count(Y)  count(Z)
city                                   
A                 1         1         1
B                 1         2         0

df = df.groupby('city')['room_type'].value_counts().unstack(fill_value=0)
       .rename(columns=lambda x: 'count({})'.format(x))
print (df)
room_type  count(X)  count(Y)  count(Z)
city                                   
A                 1         1         1
B                 1         2         0

Answer 2

一个解决方案jezrael没有给;-)

s = pd.value_counts([tuple(i) for i in df.values.tolist()])
s.index = pd.MultiIndex.from_tuples(s.index.values, names=['city', None])
s.unstack(fill_value=0).rename(columns='count({})'.format).reset_index()

  city  count(X)  count(Y)  count(Z)
0    A         1         1         1
1    B         1         2         0

更多地参与

cities = pd.unique(df.city)
room_types = pd.unique(df.room_type)
d1 = pd.DataFrame(
    np.zeros((len(cities), len(room_types)), dtype=int),
    cities,
    room_types
)
for r, c in df.values:
    d1.set_value(r, c, d1.get_value(r, c) + 1)

d1.rename(columns='count({})'.format).rename_axis('city').reset_index()

第一种解决方案的变化

from collections import Counter

pd.Series(
    Counter(map(tuple, df.values.tolist()))
).unstack(fill_value=0).rename(
    columns='count({})'.format
).rename_axis('city').reset_index()

Python Pandas groupby多列

问题描述

2 个解决方案

解决方案1
5 已采纳 2017-03-07 06:54:02

解决方案2
2 2017-03-07 07:03:49

Python Pandas groupby多列

问题描述

2 个解决方案

解决方案1 5 已采纳 2017-03-07 06:54:02

解决方案2 2 2017-03-07 07:03:49

解决方案1
5 已采纳 2017-03-07 06:54:02

解决方案2
2 2017-03-07 07:03:49