如何將一個數據幀的連接值插入Pyspark中的另一個數據幀？

Question

我正在創建一個time_interval列，並將其添加到Pyspark中的現有Data-frame中 。 理想情況下，time_interval的格式應為“ HHmm ”，將分鍾四舍五入到最接近的15分鍾標記（ 815、830、845、900等）。

我有可以為我做邏輯的spark sql代碼，但是如何獲取串聯為字符串列的值並將其插入現有的Data-frame中呢？

time_interval = sqlContext.sql("select extract(hour from current_timestamp())||floor(extract(minute from current_timestamp())/15)*15")

time_interval.show()

+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|concat(CAST(hour(current_timestamp()) AS STRING), CAST((FLOOR((CAST(minute(current_timestamp()) AS DOUBLE) / CAST(15 AS DOUBLE))) * CAST(15 AS BIGINT)) AS STRING))|
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|                                                                                                                                                               1045|
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------+

baseDF = sqlContext.sql("select * from test_table")
newBase = baseDF.withColumn("time_interval", lit(str(time_interval)))

newBase.select("time_interval").show()

+--------------------+
|       time_interval|
+--------------------+
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
|DataFrame[concat(...|
+--------------------+
only showing top 20 rows

因此，實際的預期結果應該只是在我正在創建的新列中顯示實際的字符串值，而不是數據框中的此串聯值。 如下所示：

newBase.select("time_interval").show(1)
+-------------+
|time_interval|
+-------------+
|    1045     |                                                                                                                                           
+-------------+

Answer 1

由於time_interval是數據幀類型，因此在這種情況下，需要從time_interval中collect並extract the required value out from dataframe 。

嘗試這種方式：

newBase = baseDF.withColumn("time_interval", lit(str(time_interval.collect()[0][0])))
newBase.show()

（要么）

通過使用select(expr())函數：

newBase = baseDF.select("*",expr("string(extract(hour from current_timestamp())||floor(extract(minute from current_timestamp())/15)*15) AS time_interval"))

如評論中提到的保險庫中所述，使用selectExpr()函數：

newBase = baseDF.selectExpr("*","string(extract(hour from current_timestamp())||floor(extract(minute from current_timestamp())/15)*15) AS time_interval")

例：

>>> from pyspark.sql.functions import *
>>> from pyspark.sql.types import IntegerType
>>> time_interval = spark.sql("select extract(hour from current_timestamp())||floor(extract(minute from current_timestamp())/15)*15")
>>> baseDF=spark.createDataFrame([1,2,3,4],IntegerType())
>>> newBase = baseDF.withColumn("time_interval", lit(str(time_interval.collect()[0][0])))
>>> newBase.show()
+-----+-------------+
|value|time_interval|
+-----+-------------+
|    1|         1245|
|    2|         1245|
|    3|         1245|
|    4|         1245|
+-----+-------------+

如何將一個數據幀的連接值插入Pyspark中的另一個數據幀？

問題描述

1 個解決方案

解決方案1
0 已采納 2019-05-30 17:42:47

如何將一個數據幀的連接值插入Pyspark中的另一個數據幀？

問題描述

1 個解決方案

解決方案1 0 已采納 2019-05-30 17:42:47

解決方案1
0 已采納 2019-05-30 17:42:47