時間序列分析 For 循環 Python

Question

我試圖自動化預測（1）每個州的總需求和（2）每個州每個客戶的需求的過程。 應用的統計方法是移動平均。 預測時間提前 1 個月。數據是從 5 列 Excel 表導入的：客戶、狀態、產品、數量、訂單日期。 可以通過以下鏈接找到 Excel 文件https://drive.google.com/file/d/1JlIqWl8bfyJ3Io01Zx088GIAC6rRuCa8/view?usp=sharing

一個客戶可以與不同的州相關聯，例如，Aaron Bergman 可以從華盛頓、德克薩斯和俄克拉荷馬州的商店購買椅子、藝術品、電話。 其他客戶有相同的購買行為。 For (1) 我嘗試使用 For 循環，但沒有奏效。 錯誤是 Order_Date 不在索引中

df = pd.read_excel("Sales_data.xlsx")
State_Name = df.State.unique()
Customer_Name = df.Customer.unique()

for x in State_Name:
   df = df[['Order_Date', 'Quantity']]
   df['Order_Date'].min(), df['Order_Date'].max()
   df.isnull().sum()

   df.Timestamp = pd.to_datetime(df.Order_Date, format= '%D-%M-%Y %H:%m')
   df.index = df.Timestamp
   df = df.resample('MS').sum()

   rolling_mean = df.Quantity.rolling(window=10).mean()

Answer 1

考慮將for循環行轉換為定義的方法，並使用groupby調用它以返回時間序列。 另外，請注意pandas最佳實踐：

避免將列作為帶有句點限定符的屬性引用。 相反，使用括號[] 。
避免帶有列子集列表的[] 。 相反，使用reindex 。

def rollmean_func(df):
   # BETTER COLUMN SUBSET
   df = df.reindex(['Order_Date', 'Quantity'], axis='columns')  

   # BETTER COLUMN ASSIGNMENT
   df['Timestamp'] = pd.to_datetime(df['Order_Date'], format= '%D-%M-%Y %H:%m')  
   df.index = df['Timestamp']

   df = df.resample('MS').sum()
   rolling_mean = df['Quantity'].rolling(window=10).mean()
  
   return rolling_mean

州級

state_rollmeans = df.groupby(['State']).apply(rollmean_func)
state_rollmeans
# State      Timestamp 
# Alabama    2014-04-01     NaN
#            2014-05-01     NaN
#            2014-06-01     NaN
#            2014-07-01     NaN
#            2014-08-01     NaN
# ...
# Wisconsin  2017-09-01    10.6
#            2017-10-01     7.5
#            2017-11-01     9.7
#            2017-12-01    12.3
# Wyoming    2016-11-01     NaN
# Name: Quantity, Length: 2070, dtype: float64

客戶級別

customer_rollmeans = df.groupby(['Customer_Name']).apply(rollmean_func)
customer_rollmeans
# Customer_Name       Timestamp 
# Aaron Bergman       2014-02-01    NaN
#                     2014-03-01    NaN
#                     2014-04-01    NaN
#                     2014-05-01    NaN
#                     2014-06-01    NaN
# ...
# Zuschuss Donatelli  2017-02-01    1.2
#                     2017-03-01    0.7
#                     2017-04-01    0.7
#                     2017-05-01    0.0
#                     2017-06-01    0.3
# Name: Quantity, Length: 26818, dtype: float64

時間序列分析 For 循環 Python

問題描述

1 個解決方案

解決方案1
0 已采納 2020-10-17 22:21:48

時間序列分析 For 循環 Python

問題描述

1 個解決方案

解決方案1 0 已采納 2020-10-17 22:21:48

解決方案1
0 已采納 2020-10-17 22:21:48