在pyspark shell中运行的过滤器无法提交火花

Question

df_filter = df.filter（〜（col（'word'）。isin（stop_words_list））））

df_filter.count（）

27781

df.count（）

31240

使用spark-submit将相同的代码提交到Spark集群时，筛选器功能无法正常工作，stop_words_list中具有col（'word'）的行未筛选。 为什么会这样？

Answer 1

修剪col（'word'）后，过滤器现在可以正常工作。 df_filter = df.filter(~(trim(col("word")).isin(stop_words_list)))我仍然不知道为什么它可以在pyspark shell中工作，但不能提交火花。 它们唯一的区别是：在pyspark shell中，我使用spark.read.csv（）读取文件，而在spark-submit中，我使用了以下方法。 from pyspark.sql import SparkSession from pyspark.sql import SQLContext session = pyspark.sql.SparkSession.builder.appName('test').getOrCreate() sqlContext = SQLContext(session) df = sqlContext.read.format("com.databricks.spark.csv").option('header','true').load()我不确定两种不同的读入方法是否会导致差异。 熟悉此事的人可以澄清。

Answer 2

尝试使用双引号而不是单引号。

from pyspark.sql.functions import col
df_filter = df.filter(~(col("word").isin(stop_words_list))).count()

在pyspark shell中运行的过滤器无法提交火花

问题描述

2 个解决方案

解决方案1
0 2018-08-03 23:02:24

解决方案2
-1 2018-08-02 19:50:55

在pyspark shell中运行的过滤器无法提交火花

问题描述

2 个解决方案

解决方案1 0 2018-08-03 23:02:24

解决方案2 -1 2018-08-02 19:50:55

解决方案1
0 2018-08-03 23:02:24

解决方案2
-1 2018-08-02 19:50:55