繁体   English   中英

pyspark 中的行数差异写入 csv

[英]Line count discrepancy in pyspark write csv

我有一个 pyspark dataframe 想写入 HDFS。 我正在使用以下命令: df.write.mode("overwrite").option("header", "true").option("sep", "|").csv(outfile, compression="bzip2")

我正在观察一件奇怪的事情。 dataframe 有 366,000 行,我使用df.count() function 获得。 但是命令的output只有72、557行(wc -l命令)。 理想情况下,每一行都应该在 output 中有对应的行。 我一直使用的写命令有什么问题吗?

事实证明,有些行的所有元素都是 null。 这导致了行数的差异。

这些行是 null 因为在读取 dataframe 时,我传递了一个手动定义的模式。 不遵循架构的行作为 dataframe 中的 null 行插入。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM