spark：在数据框中仅拆分一列，并保持其余列不变

Question

我正在Spark Dataframe中读取文件。 在第一列中，我将获得两个与“ _”串联的值。 我需要将第一列分为两列，并保持其余列不变。 我正在使用Scala和Spark

例如：

col1  col2   col3

a_1    xyz   abc

b_1    lmn   opq

我需要新的DF为：

col1_1  col1_2  col2  col3

a       1       xyz   abc

b       1       lmn   opq

仅一列需要分成两列。

我尝试使用df.select的split函数，但是我需要为剩余的列编写select并考虑具有100列的不同文件，并且我想对所有文件使用可重用的代码。

Answer 1

您可以执行以下操作：

import spark.implicits._

df.withColumn("_tmp", split($"col1", "_"))
 .withColumn("col1_1", $"_tmp".getItem(0))
 .withColumn("col1_2", $"_tmp".getItem(1))
 .drop("_tmp")

spark：在数据框中仅拆分一列，并保持其余列不变

问题描述

1 个解决方案

解决方案1
1 2019-05-01 12:52:03

spark：在数据框中仅拆分一列，并保持其余列不变

问题描述

1 个解决方案

解决方案1 1 2019-05-01 12:52:03

解决方案1
1 2019-05-01 12:52:03