簡體   English   中英

計算大型數據框的最佳方法?

[英]Best way to calculate over a large data frame?

我試圖找到處理大約 8000 萬行數據集的最佳方法。 我需要對這些數據進行一些計算。 我試圖for循環,但需要像永遠。

我有以下數據(從一個區域到另一個區域的單獨出租車行程,分辨率為 15 分鍾):

timestamp,        origin_area, destination_area

2014-01-27 11:00:00, 28.0,        32.0

2014-01-27 11:00:00, 28.0,        32.0

2013-01-01 01:00:00, 28.0,        1.0

2013-01-01 01:15:00, 28.0,        2.0

我需要將這些數據轉換成這樣的一些列:

timestamp, origin_area, destination_area, (該時間戳中不同起點 - 目的地夫婦的行程總和),(該時間戳中來自起點區域的所有行程的總和)

我有哪些選項可以快速處理這些計算並創建上述附加列?

謝謝

我得到了groupby()size()來做到這一點。

df.groupby(['timestamp', 'origin_area','destination_area']).size().reset_index(name='Count').sort_values(by="timestamp", 
                                                                            ascending=False).reset_index(drop=True)

在此處輸入圖片說明

;)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM