[英]Write spark dataframe to file using python and '|' delimiter
我从查询中构造了一个Spark数据帧。 我想要做的是将数据框打印到一个文本文件,其中所有信息都以“|”分隔,如下所示:
+-------+----+----+----+
|Summary|col1|col2|col3|
+-------+----+----+----+
|row1 |1 |14 |17 |
|row2 |3 |12 |2343|
+-------+----+----+----+
我怎样才能做到这一点?
您可以尝试写入选择|的分隔符的csv
df.write.option("sep","|").option("header","true").csv(filename)
这不会是100%相同但会接近。
或者你可以收集给司机并自己动手,例如:
myprint(df.collect())
要么
myprint(df.take(100))
df.collect和df.take返回行列表。
最后,您可以使用topandas收集驱动程序并使用pandas工具
在Spark 2.0+中 ,您可以使用内置的CSV编写器。 这里delimiter
是,
在默认情况下,你可以将其设置为|
df.write \
.format('csv') \
.options(delimiter='|') \
.save('target/location')
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.