Pyspark2写入CSV问题？

Question

我正在通过以下命令运行py文件：

/opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars /home/jsonnt200/geomesa-hbase-spark-runtime_2.11-1.3.5.1cc.jar,/ccri/hbase-site.zip geomesa_klondike_enrichment2.py

这将导致以下错误：

追溯（最近一次通话）：文件“ /home/jsonnt200/geomesa_klondike_enrichment2.py”，行6306，在df2_500m.write.option（'header'，'true'）。csv（'/ user / jsonnt200 / klondike_201708_1m_500meter_testEQ_union4'） csv self中的第711行的文件“ /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/pyspark/sql/readwriter.py”。_jwrite .csv（路径）文件“ /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/lib/py4j-0.10.4-src.zip/ py4j / java_gateway.py”，第1133行，位于调用文件“ /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/pyspark/sql/utils .py“，第79行，在装饰中引发IllegalArgumentException（s.split（'：'，1）[1]，stackTrace）pyspark.sql.utils.IllegalArgumentException：u'非法模式组件：XXX'

最大的问题是，如果我通过ipython提交了相同的py文件，则该文件可以正常运行。 关于可能是什么问题的任何想法？ 不幸的是，我必须使用spark2提交进行隧道传输。

Answer 1

您正在使用Spark 2.2.0 ，对吗？ 尝试读取csv文件时遇到了相同的问题。 我认为问题在于timestampFormat variabel。 其默认值为yyyy-MM-dd'T'HH:mm:ss.SSSXXX. 参考 pyspark.sql文档。

当我将其更改为例如timestampFormat="yyyy-MM-dd" ，我的代码有效。 这个问题也是在此提到的职位。 希望能帮助到你：）。

Pyspark2写入CSV问题？

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-03-06 13:55:27

Pyspark2写入CSV问题？

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-03-06 13:55:27

解决方案1
0 已采纳 2018-03-06 13:55:27