[英]Line count discrepancy in pyspark write csv
我有一个 pyspark dataframe 想写入 HDFS。 我正在使用以下命令: df.write.mode("overwrite").option("header", "true").option("sep", "|").csv(outfile, compression="bzip2")
我正在观察一件奇怪的事情。 dataframe 有 366,000 行,我使用df.count() function 获得。 但是写命令的output只有72、557行(wc -l命令)。 理想情况下,每一行都应该在 output 中有对应的行。 我一直使用的写命令有什么问题吗?
事实证明,有些行的所有元素都是 null。 这导致了行数的差异。
这些行是 null 因为在读取 dataframe 时,我传递了一个手动定义的模式。 不遵循架构的行作为 dataframe 中的 null 行插入。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.