計算大型數據框的最佳方法？

Question

我試圖找到處理大約 8000 萬行數據集的最佳方法。 我需要對這些數據進行一些計算。 我試圖for循環，但需要像永遠。

我有以下數據（從一個區域到另一個區域的單獨出租車行程，分辨率為 15 分鍾）：

timestamp,        origin_area, destination_area

2014-01-27 11:00:00, 28.0,        32.0

2014-01-27 11:00:00, 28.0,        32.0

2013-01-01 01:00:00, 28.0,        1.0

2013-01-01 01:15:00, 28.0,        2.0

我需要將這些數據轉換成這樣的一些列：

timestamp, origin_area, destination_area, （該時間戳中不同起點 - 目的地夫婦的行程總和），（該時間戳中來自起點區域的所有行程的總和）

我有哪些選項可以快速處理這些計算並創建上述附加列？

謝謝

Answer 1

我得到了groupby()和size()來做到這一點。

df.groupby(['timestamp', 'origin_area','destination_area']).size().reset_index(name='Count').sort_values(by="timestamp", 
                                                                            ascending=False).reset_index(drop=True)

;)

計算大型數據框的最佳方法？

問題描述

1 個解決方案

解決方案1
0 2018-12-25 13:38:34

計算大型數據框的最佳方法？

問題描述

1 個解決方案

解決方案1 0 2018-12-25 13:38:34

解決方案1
0 2018-12-25 13:38:34