繁体   English   中英

PySpark读取CSV读取错误

[英]PySpark Read CSV reading incorrectly

我试图将csv文件读入PySpark DataFrame。 但是,由于某种原因,PySpark CSV加载方法加载的行数远远超出预期。

我尝试过使用spark.read方法和spark.sql方法来获取CSV。

df = pd.read_csv("preprocessed_data.csv")
len(df)

# out: 318477
spark_df = spark.read.format("csv")
                     .option("header", "true")
                     .option("mode", "DROPMALFORMED")
                     .load("preprocessed_data.csv")
spark_df.count()

# out: 6422020
df_test = spark.sql("SELECT * FROM csv.`preprocessed_data.csv`")
df_test.count()

# out: 6422020

我无法弄清楚为什么它不正确地读取csv,当我显示它们时,列显示相同,但​​是有太多行。 因此,我正在寻找解决这个问题的方法。

您可以尝试以下方法。 我假设你的csv有一个标题行。

fileName = "my.csv"
sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
df = sqlContext.read.csv(fileName, header=True, inferSchema=True)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM