PySpark读取CSV读取错误

Question

我试图将csv文件读入PySpark DataFrame。 但是，由于某种原因，PySpark CSV加载方法加载的行数远远超出预期。

我尝试过使用spark.read方法和spark.sql方法来获取CSV。

df = pd.read_csv("preprocessed_data.csv")
len(df)

# out: 318477

spark_df = spark.read.format("csv")
                     .option("header", "true")
                     .option("mode", "DROPMALFORMED")
                     .load("preprocessed_data.csv")
spark_df.count()

# out: 6422020

df_test = spark.sql("SELECT * FROM csv.`preprocessed_data.csv`")
df_test.count()

# out: 6422020

我无法弄清楚为什么它不正确地读取csv，当我显示它们时，列显示相同，但是有太多行。 因此，我正在寻找解决这个问题的方法。

Answer 1

您可以尝试以下方法。 我假设你的csv有一个标题行。

fileName = "my.csv"
sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
df = sqlContext.read.csv(fileName, header=True, inferSchema=True)

PySpark读取CSV读取错误

问题描述

1 个解决方案

解决方案1
0 2019-05-22 12:56:19

PySpark读取CSV读取错误

问题描述

1 个解决方案

解决方案1 0 2019-05-22 12:56:19

解决方案1
0 2019-05-22 12:56:19