[英]How to convert data frame for time series analysis in Python?
根據您要解決的任務,我可以看到此數據集的兩個選項。
首先要做的事情:
import pandas as pd
df = pd.DataFrame(data={'Date':['2018-01-01','2018-01-01','2018-01-01', '2018-01-02', '2018-01-03'], 'Text':['A','B','C','A','A']})
df['Date'] = pd.to_datetime(df['Date']) #convert to datetime type if not already done
Date Text
0 2018-01-01 A
1 2018-01-01 B
2 2018-01-01 C
3 2018-01-02 A
4 2018-01-03 A
然后對於選項一:
df = df.groupby('Date').count()
Text
Date
2018-01-01 3
2018-01-02 1
2018-01-03 1
對於選項二:
df[df['Text'].unique()] = pd.get_dummies(df['Text'])
df = df.drop('Text', axis=1)
df = df.groupby('Date').sum()
A B C
Date
2018-01-01 1 1 1
2018-01-02 1 0 0
2018-01-03 1 0 0
get_dummies function 將為文本字段的每個可能值創建一列。 然后,每一列是 dataframe 的每一行的 boolean 指標,告訴我們文本字段的哪個值出現在這一行中。 然后,我們可以通過 Date 字段簡單地使用 groupby 進行總和聚合。
如果您不熟悉 groupby 和聚合操作的使用,我建議您先閱讀本指南。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.