在Python DataFrame中過濾掉格式不正確的日期時間值

Question

我有一個DataFrame，其中一列存儲日期。

但是，其中一些日期的格式正確，例如'2018-12-24 17:00:00'等日期時間對象，而其他日期則不是，並且像'20181225'這樣存儲。

當我嘗試使用plotly繪制這些圖形時，格式不正確的值變成了EPOCH日期，這是一個問題。

有什么辦法可以讓我只復制那些日期格式正確的行的DataFrame？

我嘗試使用

clean_dict= dailySum_df.where(dailySum_df[isinstance(dailySum_df['time'],datetime.datetime)])

方法，但由於“數組條件的形狀必須與自身的形狀相同”錯誤而無法正常工作。

    dailySum_df = pd.DataFrame(list(cursors['dailySum']))

    trace = go.Scatter(
        x=dailySum_df['time'],
        y=dailySum_df['countMessageIn']

    )
    data = [trace]
    py.plot(data, filename='basic-line')

Answer 1

嘗試使用dateutil.parser.parse和Pandas apply函數解析數據框的日期列。

Answer 2

應用dateutil.parser ，還看到我的答案在這里：

import dateutil.parser as dparser
def myparser(x):
    try:
       return dparser.parse(x)
    except:
       return None

df = pd.DataFrame( {'time': ['2018-12-24 17:00:00', '20181225', 'no date at all'], 'countMessageIn': [1,2,3]})
df.time = df.time.apply(myparser)
df = df[df.time.notnull()]

輸入：

                  time  countMessageIn
0  2018-12-24 17:00:00               1
1             20181225               2
2       no date at all               3

輸出：

                 time  countMessageIn
0 2018-12-24 17:00:00               1
1 2018-12-25 00:00:00               2

與Gustavo的解決方案不同，它可以處理完全沒有可識別日期的行，並且可以根據您的問題過濾掉此類行。

如果你原來的時間列可能包含其他文本除日期本身，包括fuzzy=True參數如圖所示這里。

在Python DataFrame中過濾掉格式不正確的日期時間值

問題描述

2 個解決方案

解決方案1
0 2019-07-14 18:49:27

解決方案2
0 已采納 2019-07-14 19:40:15

在Python DataFrame中過濾掉格式不正確的日期時間值

問題描述

2 個解決方案

解決方案1 0 2019-07-14 18:49:27

解決方案2 0 已采納 2019-07-14 19:40:15

解決方案1
0 2019-07-14 18:49:27

解決方案2
0 已采納 2019-07-14 19:40:15