繁体   English   中英

Pyspark2写入CSV问题?

[英]Pyspark2 Writing to CSV Issue?

我正在通过以下命令运行py文件:

/opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars /home/jsonnt200/geomesa-hbase-spark-runtime_2.11-1.3.5.1cc.jar,/ccri/hbase-site.zip geomesa_klondike_enrichment2.py

这将导致以下错误:

追溯(最近一次通话):文件“ /home/jsonnt200/geomesa_klondike_enrichment2.py”,行6306,在df2_500m.write.option('header','true')。csv('/ user / jsonnt200 / klondike_201708_1m_500meter_testEQ_union4') csv self中的第711行的文件“ /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/pyspark/sql/readwriter.py”。_jwrite .csv(路径)文件“ /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/lib/py4j-0.10.4-src.zip/ py4j / java_gateway.py”,第1133行,位于调用文件“ /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/pyspark/sql/utils .py“,第79行,在装饰中引发IllegalArgumentException(s.split(':',1)[1],stackTrace)pyspark.sql.utils.IllegalArgumentException:u'非法模式组件:XXX'

最大的问题是,如果我通过ipython提交了相同的py文件,则该文件可以正常运行。 关于可能是什么问题的任何想法? 不幸的是,我必须使用spark2提交进行隧道传输。

您正在使用Spark 2.2.0 ,对吗? 尝试读取csv文件时遇到了相同的问题。 我认为问题在于timestampFormat variabel。 其默认值为yyyy-MM-dd'T'HH:mm:ss.SSSXXX. 参考 pyspark.sql文档

当我将其更改为例如timestampFormat="yyyy-MM-dd" ,我的代码有效。 这个问题也是在此提到的职位 希望能帮助到你 :)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM