簡體 English 中英

熊貓groupby對象唯一計數性能

[英]Pandas groupby object unique count performance

原文 2018-12-27 08:15:28 5 1 python/ pandas

我有一個很大的交易數據集，看起來像：

| cust_no | acct_no | trans_id | product_id | ..... |

我嘗試幾種方法來計算每個客戶有多少個唯一帳戶，以及客戶購買了多少個唯一產品等。

方法1.a

transaction_df[['cust_no','acct_no']].groupby('cust_no')['acct_no'].nunique()

平均運行91.5毫秒

方法1.b

transaction_df.groupby('cust_no')['acct_no'].nunique()

平均運行85.5毫秒

方法2.a

transaction_df[['cust_no','acct_no']].groupby(['cust_no','acct_no']).size().groupby('cust_no').size()

運行61.5ms

方法2.a

transaction_df.groupby(['cust_no','acct_no']).size().groupby('cust_no').size()

運行55.3ms

我有兩個問題：

切片后的DataFrame為什么運行得較慢，即transaction_df[['cust_no','acct_no']]比僅transaction_df慢？
為什么.nunique()方法比僅堆疊兩個groupby慢得多？

1 個解決方案

1）切片需要根據操作分配內存和/或對象的副本。 在這里，您開始操作之前先創建一個新的DataFrame。

2） nunique將為O實現一個邏輯，或者直接調用set ，它在O（N）時間運行。 size將運行O（1）

在此處進行實驗時，了解有關數據集的先前結構信息可以幫助您優化功能選擇。 如果您有興趣，請閱讀https://en.wikipedia.org/wiki/Time_complexity

Groupby並計算唯一值的數量（Pandas）

[英]Groupby and count the number of unique values (Pandas)

熊貓分組並計算列的唯一值

[英]Pandas groupby and count unique value of column

熊貓：如何分組並顯示唯一值的數量

[英]pandas: How to groupby and show count of unique values

熊貓分組兩列並獲得唯一計數

[英]Pandas groupby two columns and get unique count

使用 pandas groupby 計算唯一值

[英]Count unique values using pandas groupby

使用 groupby (Pandas) 計算一列的唯一值

[英]count unique values for one column with groupby (Pandas)

有條件地計算pandas groupby對象中的值

[英]Conditionally count values in a pandas groupby object

pandas - groupby 多列並獲得其他列的唯一計數

[英]pandas - groupby multiple columns and get unique count of other column

將groupby與pandas一起使用后查找唯一列元素的數量

[英]Find count of unique column elements after using groupby with pandas

使用 groupby 計算每個 pandas 列中唯一值的頻率

[英]Count the frequency of unique values in every pandas column using groupby

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Groupby並計算唯一值的數量（Pandas）熊貓分組並計算列的唯一值熊貓：如何分組並顯示唯一值的數量熊貓分組兩列並獲得唯一計數使用 pandas groupby 計算唯一值使用 groupby (Pandas) 計算一列的唯一值有條件地計算pandas groupby對象中的值 pandas - groupby 多列並獲得其他列的唯一計數將groupby與pandas一起使用后查找唯一列元素的數量使用 groupby 計算每個 pandas 列中唯一值的頻率

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM