繁体 English 中英

pyspark 中的行数差异写入 csv

[英]Line count discrepancy in pyspark write csv

原文 2020-04-18 01:21:50 5 1 python/ apache-spark/ pyspark/ hdfs

我有一个 pyspark dataframe 想写入 HDFS。 我正在使用以下命令： df.write.mode("overwrite").option("header", "true").option("sep", "|").csv(outfile, compression="bzip2")

我正在观察一件奇怪的事情。 dataframe 有 366,000 行，我使用df.count() function 获得。 但是写命令的output只有72、557行（wc -l命令）。 理想情况下，每一行都应该在 output 中有对应的行。 我一直使用的写命令有什么问题吗？

1 个解决方案

事实证明，有些行的所有元素都是 null。 这导致了行数的差异。

这些行是 null 因为在读取 dataframe 时，我传递了一个手动定义的模式。 不遵循架构的行作为 dataframe 中的 null 行插入。

使用CSV时的行数差异

[英]Line count discrepancy when using csv

pySpark distinct（）。count（）在csv文件上

[英]PySpark distinct().count() on a csv file

在CSV中换行

[英]write on new line in csv

如何逐行写入 CSV？

[英]How to write to a CSV line by line?

Pyspark-将数据帧写入2个不同的csv文件

[英]Pyspark - write a dataframe into 2 different csv files

Pyspark 将 json 值作为字符串写入 csv 列

[英]Pyspark write json value as string in csv column

将pyspark sql查询输出写入csv文件

[英]Write pyspark sql query output to csv file

将 pyspark dataframe 写入 csv 不带外引号

[英]write pyspark dataframe to csv with out outer quotes

将分区的 csv 文件写入单个文件夹 - Pyspark

[英]Write paritioned csv files to a single folder - Pyspark

写入下一行python csv

[英]Write to next line python csv

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用CSV时的行数差异 pySpark distinct（）。count（）在csv文件上在CSV中换行如何逐行写入 CSV？ Pyspark-将数据帧写入2个不同的csv文件 Pyspark 将 json 值作为字符串写入 csv 列将pyspark sql查询输出写入csv文件将 pyspark dataframe 写入 csv 不带外引号将分区的 csv 文件写入单个文件夹 - Pyspark 写入下一行python csv

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM