繁体 English 中英

Apache Spark。 UDF列基于另一列而不将其名称作为参数传递。

[英]Apache Spark. UDF Column based on another column without passing it's name as argument.

原文 2017-02-17 17:22:53 0 1 scala/ apache-spark/ spark-dataframe/ udf

有一个列固定的DataSet，我在这个DataSet中添加了另一个列 - firm_id这里的示例：

private val firms: mutable.Map[String, Integer] = ...
private val firmIdFromCode: (String => Integer) = (code: String) => firms(code)
val firm_id_by_code: UserDefinedFunction = udf(firmIdFromCode)
...
val ds = dataset.withColumn("firm_id", firm_id_by_code($"firm"))

有没有办法消除传递$"firm"作为参数（此列始终存在于DS中）。 我正在为此寻找一些东西：

val ds = dataset.withColumn("firm_id", firm_id_by_code)

1 个解决方案

您可以提供定义udf时将使用的列。

val someUdf = udf{ /*udf code*/}.apply($"colName")

// Usage in dataset
val ds = dataset.withColumn("newColName",someUdf)

Apache Spark 聚合：基于另一列值聚合列

[英]Apache spark aggregation: aggregate column based on another column value

Spark - 将完整行传递给udf，然后在udf中获取列名

[英]Spark - pass full row to a udf and then get column name inside udf

Scala Spark基于数据帧中的另一列增加一列而不使用for循环

[英]Scala Spark Incrementing a column based on another column in dataframe without for loops

udf spark列名称

[英]udf spark column names

如何根据另一列的值填充 Spark DataFrame 列？

[英]How to populate a Spark DataFrame column based on another column's value?

Spark中的动态列选择（基于另一列的值）

[英]Dynamic column selection in Spark (based on another column's value)

检索 spark dataframe 数组列值并将其用作 UDF 中的列名

[英]Retrieve spark dataframe array column value and reuse it as a column name in a UDF

Spark-将列值传递给udf，然后在udf中获取另一个列值

[英]Spark - pass column value to a udf and then get another column value inside udf

Spark Scala：如何使用DataFrame.Select在UDF中传递列名

[英]Spark Scala: How to pass column name in UDF with DataFrame.Select

Spark：在不使用 UDF 的情况下添加具有 map 逻辑的列

[英]Spark: Add column with map logic without using UDF

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Apache Spark 聚合：基于另一列值聚合列 Spark - 将完整行传递给udf，然后在udf中获取列名 Scala Spark基于数据帧中的另一列增加一列而不使用for循环 udf spark列名称如何根据另一列的值填充 Spark DataFrame 列？ Spark中的动态列选择（基于另一列的值）检索 spark dataframe 数组列值并将其用作 UDF 中的列名 Spark-将列值传递给udf，然后在udf中获取另一个列值 Spark Scala：如何使用DataFrame.Select在UDF中传递列名 Spark：在不使用 UDF 的情况下添加具有 map 逻辑的列

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM