[英]PySpark removing Invalid Date time format in column
我的日期時間字段格式為:2016-10-15 00:00:00使用推斷架構,同時將我的數據保存到鑲木地板文件,我有幾行不符合此格式。
如何在PySpark中集體刪除它們?
它在我的UDF中引起了我的問題。
假設您正在解析日期列,並且具有無效日期的行為空,通常是這種情況:
df.filter(col('date').isNotNull())
或者,如果您的日期作為字符串讀取,您可以使用unix_timestamp
解析它:
(
df
.select(unix_timestamp('date', 'yyyy-MM-dd HH:mm:ss').cast("timestamp").alias('date'))
.filter(col('date').isNotNull())
)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.