繁体   English   中英

Spark如何在Java项目中使用Pyspark或Scala管道?

[英]Spark how to use Pyspark or Scala pipeline in a Java project?

I have a legacy project written in Java that creates an Apache Spark Dataset, apply a transformation pipeline and collect the results into java collections

Dataset<Row>  df = sparkSession.sql("select * from myTable");
// Do transforms on df
df.collectAsList();

在 Java 中进行转换非常冗长,所以我想在 Pyspark(首选)或 Scala 中编写转换管道。 例如,我将如何在 Pyspark 中编写以下转换并将其应用于我的 Java 数据集? 在 Pyspark 和 Scala 中做同样的事情之间的性能考虑是什么? 我不想在 Python 或 Scala 中重写整个程序,但只需用两种语言中的一种编写转换,同时使用 java 数据集作为输入/输出。

WindowSpec dt_window = Window.partitionBy("name")
                             .orderBy("date")
                             .rowsBetween(Window.currentRow(), 3);
df = df.withColumn("lastValue",last(df.col("value"),true).over(dt_window));

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM