使用 pyspark 計算 dataframe 每一行中的總值

Question

我在數據框中有一列，每一行都有一個用逗號分隔的日期列表。 我想創建一個名為 date_count 的新列，其中包含每行的日期數。 我嘗試使用 pandas 但我想在 pyspark 中實現它，而且我也是 spark 新手。

df['date_count'] = 0
    for index in df.index.tolist():
        for i in (df.loc[[index],'date']):
            date_list = i.split(",")
            df.loc[[index],'date_count'] = len(date_list)

Answer 1

下面是我的 pyspark 代碼：

values = [
  (1,"2019-10-11, 2019-10-12, 2019-10-13, 2019-10-14, 2019-10-15"),
  (2,"2019-11-11, 2019-11-12, 2019-11-17, 2019-11-18")
  ]

rdd = sc.parallelize(values)
schema = StructType([
    StructField("id", IntegerType(), True),StructField("dates", StringType(), True)
])

data = spark.createDataFrame(rdd, schema)

data.createOrReplaceTempView("data")
spark.sql("""select id, 
                    dates, 
                    size(split(dates, ",")) as date_count 
              from data""").show(20,False)

結果：

+---+----------------------------------------------------------+----------+
|id |dates                                                     |date_count|
+---+----------------------------------------------------------+----------+
|1  |2019-10-11, 2019-10-12, 2019-10-13, 2019-10-14, 2019-10-15|5         |
|2  |2019-11-11, 2019-11-12, 2019-11-17, 2019-11-18            |4         |
+---+----------------------------------------------------------+----------+

使用 pyspark 計算 dataframe 每一行中的總值

問題描述

1 個解決方案

解決方案1
1 已采納 2019-10-12 16:51:15

使用 pyspark 計算 dataframe 每一行中的總值

問題描述

1 個解決方案

解決方案1 1 已采納 2019-10-12 16:51:15

解決方案1
1 已采納 2019-10-12 16:51:15