[英]PySpark Read CSV reading incorrectly
我试图将csv文件读入PySpark DataFrame。 但是,由于某种原因,PySpark CSV加载方法加载的行数远远超出预期。
我尝试过使用spark.read
方法和spark.sql
方法来获取CSV。
df = pd.read_csv("preprocessed_data.csv")
len(df)
# out: 318477
spark_df = spark.read.format("csv")
.option("header", "true")
.option("mode", "DROPMALFORMED")
.load("preprocessed_data.csv")
spark_df.count()
# out: 6422020
df_test = spark.sql("SELECT * FROM csv.`preprocessed_data.csv`")
df_test.count()
# out: 6422020
我无法弄清楚为什么它不正确地读取csv,当我显示它们时,列显示相同,但是有太多行。 因此,我正在寻找解决这个问题的方法。
您可以尝试以下方法。 我假设你的csv有一个标题行。
fileName = "my.csv"
sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
df = sqlContext.read.csv(fileName, header=True, inferSchema=True)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.