繁体 English 中英

使用 Spark Scala 使用现有列添加新列

[英]Adding new column using existing one using Spark Scala

原文 2017-10-09 09:39:38 2 1 scala/ apache-spark

嗨，我想使用 DataFrame 的每一行中的现有列添加新列，我正在像这样在 Spark Scala 中尝试这个...... df 是包含可变列数的数据帧，只能在运行时决定。

// Added new column "docid"
val df_new = appContext.sparkSession.sqlContext.createDataFrame(df.rdd, df.schema.add("docid", DataTypes.StringType))

 df_new.map(x => {
        import appContext.sparkSession.implicits._
      val allVals = (0 to x.size).map(x.get(_)).toSeq
      val values = allVals ++ allVals.mkString("_") 
      Row.fromSeq(values)
    })

但这给出的错误是日食本身

无法找到存储在数据集中的类型的编码器。 导入 spark.implicits 支持原始类型（Int、String 等）和产品类型（case 类）。未来版本中将添加对序列化其他类型的支持。
方法映射的参数不足：（隐式证据$7：org.apache.spark.sql.Encoder[org.apache.spark.sql.Row]）org.apache.spark.sql.Dataset[org.apache.spark.sql .行]。 未指定值参数证据$7。

请帮忙。

1 个解决方案

函数对象中的concat_ws可以提供帮助。

此代码添加了docid字段

df = df.withColumn("docid", concat_ws("_", df.columns.map(df.col(_)):_*))

假设df所有列都是字符串。

通过使用UDF和withColumn Api，可以以更好的方式完成此操作

使用其他现有列 Spark/Scala 添加新列

[英]Adding new column using other existing columns Spark/Scala

使用 scala 根据 Spark DataFrame 中现有列的聚合添加新列

[英]Adding new Columns based on aggregation on existing column in Spark DataFrame using scala

使用函数-Spark / scala返回新的Dataframe（通过转换现有的Dataframe）

[英]Returning a new Dataframe (by transforming an existing one) using a function - spark/scala

使用Scala在Spark中的图形中添加新顶点

[英]Adding new vertex in a graph in Spark using Scala

使用现有的 Integer 列在 Spark Scala ZC699575A5E8AFD9E22A7AECC1

[英]Create New Column with range of integer by using existing Integer Column in Spark Scala Dataframe

如何使用Scala / Spark 2.2将列添加到现有DataFrame并使用window函数在新列中添加特定行

[英]How to add a column to the existing DataFrame and using window function to add specific rows in the new column using Scala/Spark 2.2

使用数据框中多个其他列的值将新列添加到Dataframe - spark / scala

[英]Adding a new column to a Dataframe by using the values of multiple other columns in the dataframe - spark/scala

在 Zeppelin 上的 scala 中使用 Spark 拆分列并将部分连接成新列

[英]Split a column and concatenate parts into a new column using Spark in scala on Zeppelin

Spark Scala：使用另一个 dataframe 使用 function 构建新列

[英]Spark Scala: build a new column using a function using another dataframe

向数据框添加新列的问题-Spark / Scala

[英]Problems with adding a new column to a dataframe - spark/scala

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用其他现有列 Spark/Scala 添加新列使用 scala 根据 Spark DataFrame 中现有列的聚合添加新列使用函数-Spark / scala返回新的Dataframe（通过转换现有的Dataframe）使用Scala在Spark中的图形中添加新顶点使用现有的 Integer 列在 Spark Scala ZC699575A5E8AFD9E22A7AECC1 如何使用Scala / Spark 2.2将列添加到现有DataFrame并使用window函数在新列中添加特定行使用数据框中多个其他列的值将新列添加到Dataframe - spark / scala 在 Zeppelin 上的 scala 中使用 Spark 拆分列并将部分连接成新列 Spark Scala：使用另一个 dataframe 使用 function 构建新列向数据框添加新列的问题-Spark / Scala

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM