Spark：Scala等效于Java df.filter（）

Question

我想知道Scala中与Spark Java函数filter等效的东西是什么：

DataFrame df = sqlContext.read().parquet(xxx);
String filter = "SomeFilter";
df.filter(filter);

通常， filter应该在Scala中将函数作为输入，为什么在Java中使用string ？

Answer 1

这是相同的模语法：

val df = sqlContext.read().parquet(xxx)
val filter = "SomeFilter"
df.filter(filter)

使用def filter(conditionExpr: String): Dataset[T] 。 请注意，Scala Spark API中的Dataset[Row] Dataframe 只是一个Dataset[Row] 。

还有这需要一个过载Column和@Experimental其中一个需要的功能。

通常，过滤器应该在Scala中将函数作为输入，为什么在Java中使用字符串？

filter只是一个方法名称，它可以接受定义的任何参数。 此处的字符串（或Column ）表示SQL布尔条件。