簡體   English   中英

PySpark刪除列中的無效日期時間格式

[英]PySpark removing Invalid Date time format in column

我的日期時間字段格式為:2016-10-15 00:00:00使用推斷架構,同時將我的數據保存到鑲木地板文件,我有幾行不符合此格式。

如何在PySpark中集體刪除它們?

它在我的UDF中引起了我的問題。

假設您正在解析日期列,並且具有無效日期的行為空,通常是這種情況:

df.filter(col('date').isNotNull())

或者,如果您的日期作為字符串讀取,您可以使用unix_timestamp解析它:

(
    df
    .select(unix_timestamp('date', 'yyyy-MM-dd HH:mm:ss').cast("timestamp").alias('date'))
    .filter(col('date').isNotNull())
)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM