[英]Count total values in each row of dataframe using pyspark
我在數據框中有一列,每一行都有一個用逗號分隔的日期列表。 我想創建一個名為 date_count 的新列,其中包含每行的日期數。 我嘗試使用 pandas 但我想在 pyspark 中實現它,而且我也是 spark 新手。
df['date_count'] = 0
for index in df.index.tolist():
for i in (df.loc[[index],'date']):
date_list = i.split(",")
df.loc[[index],'date_count'] = len(date_list)
下面是我的 pyspark 代碼:
values = [
(1,"2019-10-11, 2019-10-12, 2019-10-13, 2019-10-14, 2019-10-15"),
(2,"2019-11-11, 2019-11-12, 2019-11-17, 2019-11-18")
]
rdd = sc.parallelize(values)
schema = StructType([
StructField("id", IntegerType(), True),StructField("dates", StringType(), True)
])
data = spark.createDataFrame(rdd, schema)
data.createOrReplaceTempView("data")
spark.sql("""select id,
dates,
size(split(dates, ",")) as date_count
from data""").show(20,False)
結果:
+---+----------------------------------------------------------+----------+
|id |dates |date_count|
+---+----------------------------------------------------------+----------+
|1 |2019-10-11, 2019-10-12, 2019-10-13, 2019-10-14, 2019-10-15|5 |
|2 |2019-11-11, 2019-11-12, 2019-11-17, 2019-11-18 |4 |
+---+----------------------------------------------------------+----------+
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.