Python Pandas - 按類別分組，然后按類別 plot

Question

非常簡單的 pandas 問題，我是初學者。

我有一個 dataframe 'df' （例如）：

import pandas as pd
df = pd.DataFrame({'time': ['2019-04-23 10:21:00', '2019-04-23 11:14:00', '2019-04-24 11:30'], 
                   'category': ['A', 'B', 'A'],
                   'text': ['njrnfrjn','fmrjfmrfmr','mjrnfjrnmi']})

我只想：

按類別和日期分組（每天）
按類別和日期統計短信數量
Plot 跨天的所有時間序列（同一圖中每個類別一個時間序列）

謝謝

Answer 1

您可以嘗試以下方法：

df.groupby([df.time.dt.floor('d'), "category"]).size().unstack().plot()

說明：

第一步是像你提到的那樣發牢騷。 為此，我們使用groupby
在groupby中，因為我們需要按天對times進行分組，所以一種解決方案是在time列上使用dt.floor 。 我們將參數"d"傳遞了days 。
- 此外，為確保floor可達， time列必須是time series 。 如果不是，請使用pd.to_datetime將其轉換為pd.to_datetime(df.time) 。
現在我們有了組，可以使用size方法輕松計算size 。
下一步是將category列（在此步驟中作為索引）轉換為列。 因為我們按兩個鍵unstack 。
最后，將plot稱為 dataframe。 因為 dataframe 結構良好，它可以在沒有任何 arguments 的情況下工作（每列繪制一條線，索引列（ time ）用作x 軸。

完整代碼+插圖：

# import modules 
import pandas as pd
import matplotlib.pyplot as plt
# (here random is just for creating dummy data)
from random import randint, choice

# Create dummy data
size = 1000
df = pd.DataFrame({
    'time': pd.to_datetime(["2020/01/{} {}:{}".format(randint(1, 31), randint(0,23), randint(0,59)) for _ in range(size)]),
    'text': ['blablabla...' for _ in range(size)],
    'category': [choice(["A", "B", "C"]) for _ in range(size)]
})
print(df)
#                    time          text category
# 0   2020-01-30 23:15:00  blablabla...        C
# 1   2020-01-16 07:06:00  blablabla...        A
# 2   2020-01-03 18:47:00  blablabla...        A
# 3   2020-01-21 15:45:00  blablabla...        A
# 4   2020-01-10 04:11:00  blablabla...        C
# ..                  ...           ...      ...
# 995 2020-01-12 03:03:00  blablabla...        C
# 996 2020-01-08 10:35:00  blablabla...        B
# 997 2020-01-24 20:51:00  blablabla...        C
# 998 2020-01-05 07:39:00  blablabla...        A
# 999 2020-01-26 16:54:00  blablabla...        A

# See size result
print(df.groupby([df.time.dt.floor('d'), "category"]).size())
# time        category
# 2020-01-01  A            6
#             B           18
#             C            7
# 2020-01-02  A           10
#             B            8
#                         ..
# 2020-01-30  B           16
#             C           11
# 2020-01-31  A           14
#             B           17
#             C           11

# See unstack result
print(df.groupby([df.time.dt.floor('d'), "category"]).size().unstack())
# category     A   B   C
# time
# 2020-01-01   6  18   7
# 2020-01-02  10   8  13
# 2020-01-03  11  11  16
# 2020-01-04   9   5  10
# 2020-01-05  13   9  13
# 2020-01-06  11  11  12
# 2020-01-07  13   7   9
# 2020-01-08   5  16  13
# 2020-01-09  15   6  14
# 2020-01-10  10  11   9
# 2020-01-11   7  16  13
# 2020-01-12  12  13  13
# 2020-01-13  12   5   7
# 2020-01-14  11  10  11
# 2020-01-15  13  14  11
# 2020-01-16   9   8  13
# 2020-01-17   8   9   6
# 2020-01-18  12   5  11
# 2020-01-19   7   8  13
# 2020-01-20  12   9   9
# 2020-01-21   9  13  13
# 2020-01-22  14  11  19
# 2020-01-23  14   6  12
# 2020-01-24   7   8   6
# 2020-01-25  10  12  10
# 2020-01-26   8  12   7
# 2020-01-27  18  11   7
# 2020-01-28  15  10   9
# 2020-01-29  12   7  11
# 2020-01-30  12  16  11
# 2020-01-31  14  17  11

# Perform plot
df.groupby([df.time.dt.floor('d'), "category"]).size().unstack().plot()
plt.show()

output ：

Python Pandas - 按類別分組，然后按類別 plot

問題描述

1 個解決方案

解決方案1
1 已采納 2020-04-26 17:55:05

Python Pandas - 按類別分組，然后按類別 plot

問題描述

1 個解決方案

解決方案1 1 已采納 2020-04-26 17:55:05

解決方案1
1 已采納 2020-04-26 17:55:05