在 Spark dataframe 中創建沒有毫秒部分的時間戳列

Question

我正在嘗試在 Pyspark 的數據框中創建一個名為load_time_stamp的新列，該列應該只包含今天的日期和時間，直到秒，並且不應該包含毫秒。

我已經為此編寫了下面的代碼，但是使用 null 值而不是我預期的時間戳值創建了一個新列。

from pyspark.sql import functions as F

x.withColumn("load_time_stamp", F.to_timestamp(F.substring(F.current_timestamp(), 0, 19), "yyyy-MM-dd'T'HH:mm:ss")).show()

Answer 1

您可以改用date_format ：

import pyspark.sql.functions as F

x.withColumn("load_time_stamp", F.date_format(F.current_timestamp(), "yyyy-MM-dd'T'HH:mm:ss"))

請注意， to_timestamp將時間戳從給定格式轉換，而date_format將時間戳轉換為給定格式。 您不需要substring當前時間戳，因為date_format在格式化為所需格式時會處理該問題。

Answer 2

如果你想得到一個只有秒精度的時間戳類型列，那么你可以使用from_unixtime function。

例子：

from pyspark.sql import functions as F

x = spark.createDataFrame([(1,)], ["id"])

x.withColumn(
    "load_time_stamp",
    F.from_unixtime(F.current_timestamp().cast("long"))
).show(truncate=False)

#+---+-------------------+
#|id |load_time_stamp    |
#+---+-------------------+
#|1  |2021-02-22 15:35:34|
#+---+-------------------+

在 Spark dataframe 中創建沒有毫秒部分的時間戳列

問題描述

2 個解決方案

解決方案1
0 2021-02-22 12:20:16

解決方案2
0 2021-02-22 14:40:48

在 Spark dataframe 中創建沒有毫秒部分的時間戳列

問題描述

2 個解決方案

解決方案1 0 2021-02-22 12:20:16

解決方案2 0 2021-02-22 14:40:48

解決方案1
0 2021-02-22 12:20:16

解決方案2
0 2021-02-22 14:40:48