我的代碼中的 pandas 到 csv 有什么問題？

Question

我正在為我正在做的一個項目運行此代碼，以尋找迪士尼樂園等待時間的模式：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df_pirates_all = pd.read_csv(
    "https://cdn.touringplans.com/datasets/pirates_of_caribbean_dlr.csv",usecols=['date','datetime','SPOSTMIN'],
    parse_dates=['date', 'datetime'], 
)
df_pirates_all['ride'] = 'pirates'
df_pirates_all['open'] = ~((df_pirates_all['SPOSTMIN'] == -999))

df_pirates = df_pirates_all.set_index('datetime').sort_index()
df_pirates = df_pirates.loc['2017-01-01 06:00':'2017-02-01 00:00']
df_pirates = df_pirates.resample('15Min').ffill()


df_star_tours_all = pd.read_csv(
    "https://cdn.touringplans.com/datasets/star_tours_dlr.csv", usecols=['date','datetime','SPOSTMIN'],
    parse_dates=['date', 'datetime']
)
df_star_tours_all['ride'] = 'star_tours'
df_star_tours_all['open'] = ~((df_star_tours_all['SPOSTMIN'] == -999))

df_star_tours = df_star_tours_all.set_index('datetime').sort_index()
df_star_tours = df_star_tours.loc['2017-01-01 06:00':'2017-02-01 00:00']
df_star_tours = df_star_tours.resample('15Min').ffill()

df_space_all = pd.read_csv(
    "https://cdn.touringplans.com/datasets/space_mountain_dlr.csv", usecols=['date','datetime','SPOSTMIN'], 
    parse_dates=['date', 'datetime']
)
df_space_all['ride'] = 'space'
df_space_all['open'] = ~((df_space_all['SPOSTMIN'] == -999))

df_space = df_space_all.set_index('datetime').sort_index()
df_space = df_space.loc['2017-01-01 06:00':'2017-02-01 00:00']
df_space = df_space.resample('15Min').ffill()


all_data = pd.concat([df_pirates, df_star_tours, df_space]).reset_index()
all_data = (
    all_data
        # Drop any "NaN" values in the column 'ride'
        .dropna(subset=['ride', ])
        # Make datetime and ride a "Multi-Index"
        .set_index(['datetime', 'ride'])
        # Choose the column 'SPOSTMIN'
        ['SPOSTMIN']
        # Take the last index ('ride') and rotate to become column names
        .unstack()
)
# print (all_data)

for month, group in all_data.groupby(pd.Grouper(freq='M')):
    with pd.ExcelWriter(f'{month}.xlsx') as writer:
        for day, dfsub in group.groupby(pd.Grouper(freq='D')):
            dfsub.to_excel(writer, sheet_name='day')

但是我遇到了這個錯誤

FileCreateError: [Errno 22] Invalid argument: '2017-01-31 00:00:00.xlsx'

它連接到 dfsub.to_excel 行。

它主要由評論修復，但是，只出現一張表，它只有最后一天的數據（1-31-17），而不是 1-1-17、1-2-17 等的單個表。

Answer 1

對於基於您不關心特定日期+時間的代碼的第一個錯誤，請執行以下操作：

with pd.ExcelWriter(f'{month.date()}.xlsx'):

這會將日期時間 object 轉換為日期 object

您的第二個錯誤是說您正在嘗試創建一個並非全部唯一的列 pandas 不允許的索引。

也許您可以組合或使用另一個字段？

Answer 2

修復它的原因是將代碼從

for month, group in all_data.groupby(pd.Grouper(freq='M')):
    with pd.ExcelWriter(f'{month}.xlsx') as writer:
        for day, dfsub in group.groupby(pd.Grouper(freq='D')):
            dfsub.to_excel(writer, sheet_name='day')

至

for month, group in all_data.groupby(pd.Grouper(freq='M')):
    with pd.ExcelWriter(f'{month.strftime("%B %Y")}.xlsx') as writer:
        for day, dfsub in group.groupby(pd.Grouper(freq='D')):
            dfsub.to_excel(writer,sheet_name=str(day.date()))

與所提出的建議。

我的代碼中的 pandas 到 csv 有什么問題？

問題描述

2 個解決方案

解決方案1
1 2020-07-09 04:03:19

解決方案2
0 已采納 2020-07-09 08:16:14

我的代碼中的 pandas 到 csv 有什么問題？

問題描述

2 個解決方案

解決方案1 1 2020-07-09 04:03:19

解決方案2 0 已采納 2020-07-09 08:16:14

解決方案1
1 2020-07-09 04:03:19

解決方案2
0 已采納 2020-07-09 08:16:14