[英]Spark how to use Pyspark or Scala pipeline in a Java project?
I have a legacy project written in Java that creates an Apache Spark Dataset, apply a transformation pipeline and collect the results into java collections
Dataset<Row> df = sparkSession.sql("select * from myTable");
// Do transforms on df
df.collectAsList();
在 Java 中进行转换非常冗长,所以我想在 Pyspark(首选)或 Scala 中编写转换管道。 例如,我将如何在 Pyspark 中编写以下转换并将其应用于我的 Java 数据集? 在 Pyspark 和 Scala 中做同样的事情之间的性能考虑是什么? 我不想在 Python 或 Scala 中重写整个程序,但只需用两种语言中的一种编写转换,同时使用 java 数据集作为输入/输出。
WindowSpec dt_window = Window.partitionBy("name")
.orderBy("date")
.rowsBetween(Window.currentRow(), 3);
df = df.withColumn("lastValue",last(df.col("value"),true).over(dt_window));
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.