繁体 English 中英

Spark-合并后，聚合列从DataFrame中消失

[英]Spark - aggregated column disappears from a DataFrame after join

原文 2018-08-14 14:52:01 5 1 scala/ apache-spark/ apache-spark-sql

我想计算每个sale_id的商品数量，并决定使用count函数。 这个想法是让item_numbers作为最后一列，而不影响从salesDf排序的原始列。

但是在加入后， sale_id列成为df3的第一列。 因此，为了解决此问题，我尝试使用.select(salesDf.schema.fieldNames.map(col):_*)但是之后缺少item_numbers列（而其他列的排序是正确的）。

如何保留正确的排序，同时保留item_numbers列？

 val df2 = salesDf.groupBy("sale_id").agg(count("item_id").as("item_numbers"))
 val df3 = salesDf.join(df2, "sale_id").select(salesDf.schema.fieldNames.map(col):_*)

1 个解决方案

要在最终结果中保留salesDf的列顺序，可以按如下方式组合select的列列表：

val df2 = salesDf.groupBy("sale_id").agg(count("item_id").as("item_numbers"))
val df3 = salesDf.join(df2, "sale_id")

val orderedCols = salesDf.columns :+ "item_numbers"
val resultDF = df3.select(orderedCols.map(col): _*)

加入后如何更新Spark Scala中的dataframe列？

[英]How to update dataframe column in Spark Scala after join?

如何在 Spark 数据框中使用嵌套列进行连接

[英]How to join using a nested column in Spark dataframe

Spark Scala连接数据框减去列值

[英]Spark Scala join dataframe subtract column values

Spark Scala数据框-用来自另一个数据框的值替换/联接列值（但已转置）

[英]Spark Scala Dataframe - replace/join column values with values from another dataframe (but is transposed)

将列添加到具有汇总值的DataFrame中

[英]Add Column to DataFrame With Aggregated Values

Spark join dataframe 基于不同类型spark 1.6的列

[英]Spark join dataframe based on column of different type spark 1.6

从数据框火花中删除一列

[英]remove a column from a dataframe spark

spark Scala join 聚合表的多次

[英]spark Scala join multi time of an aggregated table

从卡夫卡读到火花的数据在注册成表后会消失吗？

[英]Data read from kafka into spark disappears after registration as a table?

从检查点重新启动后，Spark 流选项卡消失

[英]Spark streaming tab disappears after restarting from checkpoint

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 加入后如何更新Spark Scala中的dataframe列？如何在 Spark 数据框中使用嵌套列进行连接 Spark Scala连接数据框减去列值 Spark Scala数据框-用来自另一个数据框的值替换/联接列值（但已转置）将列添加到具有汇总值的DataFrame中 Spark join dataframe 基于不同类型spark 1.6的列从数据框火花中删除一列 spark Scala join 聚合表的多次从卡夫卡读到火花的数据在注册成表后会消失吗？从检查点重新启动后，Spark 流选项卡消失

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM