繁体 English 中英

熊猫groupby对象唯一计数性能

[英]Pandas groupby object unique count performance

原文 2018-12-27 08:15:28 1 1 python/ pandas

我有一个很大的交易数据集，看起来像：

| cust_no | acct_no | trans_id | product_id | ..... |

我尝试几种方法来计算每个客户有多少个唯一帐户，以及客户购买了多少个唯一产品等。

方法1.a

transaction_df[['cust_no','acct_no']].groupby('cust_no')['acct_no'].nunique()

平均运行91.5毫秒

方法1.b

transaction_df.groupby('cust_no')['acct_no'].nunique()

平均运行85.5毫秒

方法2.a

transaction_df[['cust_no','acct_no']].groupby(['cust_no','acct_no']).size().groupby('cust_no').size()

运行61.5ms

方法2.a

transaction_df.groupby(['cust_no','acct_no']).size().groupby('cust_no').size()

运行55.3ms

我有两个问题：

切片后的DataFrame为什么运行得较慢，即transaction_df[['cust_no','acct_no']]比仅transaction_df慢？
为什么.nunique()方法比仅堆叠两个groupby慢得多？

1 个解决方案

1）切片需要根据操作分配内存和/或对象的副本。 在这里，您开始操作之前先创建一个新的DataFrame。

2） nunique将为O实现一个逻辑，或者直接调用set ，它在O（N）时间运行。 size将运行O（1）

在此处进行实验时，了解有关数据集的先前结构信息可以帮助您优化功能选择。 如果您有兴趣，请阅读https://en.wikipedia.org/wiki/Time_complexity

Groupby并计算唯一值的数量（Pandas）

[英]Groupby and count the number of unique values (Pandas)

熊猫分组并计算列的唯一值

[英]Pandas groupby and count unique value of column

熊猫：如何分组并显示唯一值的数量

[英]pandas: How to groupby and show count of unique values

熊猫分组两列并获得唯一计数

[英]Pandas groupby two columns and get unique count

使用 pandas groupby 计算唯一值

[英]Count unique values using pandas groupby

使用 groupby (Pandas) 计算一列的唯一值

[英]count unique values for one column with groupby (Pandas)

有条件地计算pandas groupby对象中的值

[英]Conditionally count values in a pandas groupby object

pandas - groupby 多列并获得其他列的唯一计数

[英]pandas - groupby multiple columns and get unique count of other column

将groupby与pandas一起使用后查找唯一列元素的数量

[英]Find count of unique column elements after using groupby with pandas

使用 groupby 计算每个 pandas 列中唯一值的频率

[英]Count the frequency of unique values in every pandas column using groupby

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Groupby并计算唯一值的数量（Pandas）熊猫分组并计算列的唯一值熊猫：如何分组并显示唯一值的数量熊猫分组两列并获得唯一计数使用 pandas groupby 计算唯一值使用 groupby (Pandas) 计算一列的唯一值有条件地计算pandas groupby对象中的值 pandas - groupby 多列并获得其他列的唯一计数将groupby与pandas一起使用后查找唯一列元素的数量使用 groupby 计算每个 pandas 列中唯一值的频率

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM