Python Spark - 如何創建一個新列，在數據幀上對現有列進行切片？

Question

我需要通過在同一數據幀上切片當前列來在我的數據幀上創建一個新列。

開始時間：時間戳

START_TIME
2017-03-25T13:14:32.000+0000
2018-03-25T13:14:32.000+0000
2019-03-25T13:14:32.000+0000
2020-03-25T13:14:32.000+0000
2021-03-25T13:14:32.000+0000

我的輸出應該是這樣的

START_TIME                        NEW_START_TIME
2017-03-25T13:14:32.000+0000      2017-03-25
2018-03-25T13:14:32.000+0000      2018-03-25
2019-03-25T13:14:32.000+0000      2019-03-25
2020-03-25T13:14:32.000+0000      2020-03-25
2021-03-25T13:14:32.000+0000      2021-03-25

我嘗試了幾件事，但沒有一個奏效。

tpv =  dataset.start_time_example

tpv['new_start_time'] = tpv['start_time'].slice(0,10)

類型錯誤：“列”對象不可調用

tpv['newstartdate'] = tpv['start_time'].slice.str[:10]

TypeError: startPos 和 length 必須是相同的類型。 分別獲得了“NoneType”類和“int”類。

newstartdate = tpv['start_time'].slice(0,10)
tpv['newstartdate'] = newstartdate

類型錯誤：“列”對象不可調用

你能幫我解決這個問題嗎？ （我正在使用 python 3）

Answer 1

試試這個它應該工作。

from pyspark.sql import functions as f
df.withColumn("new_start_time",f.to_date(f.to_timestamp(df.start_time))).show()

Python Spark - 如何創建一個新列，在數據幀上對現有列進行切片？

問題描述

1 個解決方案

解決方案1
1 2020-01-06 20:14:49

Python Spark - 如何創建一個新列，在數據幀上對現有列進行切片？

問題描述

1 個解決方案

解決方案1 1 2020-01-06 20:14:49

解決方案1
1 2020-01-06 20:14:49