Spark 2.2 非法模式組件：XXX java.lang.IllegalArgumentException：非法模式組件：XXX

Question

我正在嘗試從 Spark 2.1 升級到 2.2。 當我嘗試將數據幀讀取或寫入某個位置（CSV 或 JSON）時，我收到此錯誤：

Illegal pattern component: XXX
java.lang.IllegalArgumentException: Illegal pattern component: XXX
at org.apache.commons.lang3.time.FastDatePrinter.parsePattern(FastDatePrinter.java:282)
at org.apache.commons.lang3.time.FastDatePrinter.init(FastDatePrinter.java:149)
at org.apache.commons.lang3.time.FastDatePrinter.<init>(FastDatePrinter.java:142)
at org.apache.commons.lang3.time.FastDateFormat.<init>(FastDateFormat.java:384)
at org.apache.commons.lang3.time.FastDateFormat.<init>(FastDateFormat.java:369)
at org.apache.commons.lang3.time.FastDateFormat$1.createInstance(FastDateFormat.java:91)
at org.apache.commons.lang3.time.FastDateFormat$1.createInstance(FastDateFormat.java:88)
at org.apache.commons.lang3.time.FormatCache.getInstance(FormatCache.java:82)
at org.apache.commons.lang3.time.FastDateFormat.getInstance(FastDateFormat.java:165)
at org.apache.spark.sql.catalyst.json.JSONOptions.<init>(JSONOptions.scala:81)
at org.apache.spark.sql.catalyst.json.JSONOptions.<init>(JSONOptions.scala:43)
at org.apache.spark.sql.execution.datasources.json.JsonFileFormat.inferSchema(JsonFileFormat.scala:53)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:177)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:177)
at scala.Option.orElse(Option.scala:289)
at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:176)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:366)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
at org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:333)
at org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:279)

我沒有為 dateFormat 設置默認值，所以我不明白它來自哪里。

spark.createDataFrame(objects.map((o) => MyObject(t.source, t.table, o.partition, o.offset, d)))
    .coalesce(1)
    .write
    .mode(SaveMode.Append)
    .partitionBy("source", "table")
    .json(path)

我仍然收到以下錯誤：

import org.apache.spark.sql.{SaveMode, SparkSession}
val spark = SparkSession.builder.appName("Spark2.2Test").master("local").getOrCreate()
import spark.implicits._
val agesRows = List(Person("alice", 35), Person("bob", 10), Person("jill", 24))
val df = spark.createDataFrame(agesRows).toDF();

df.printSchema
df.show

df.write.mode(SaveMode.Overwrite).csv("my.csv")

這是架構：root |-- name: string (nullable = true) |-- age: long (nullable = false)

Answer 1

我找到了答案。

timestampFormat 的默認值是yyyy-MM-dd'T'HH:mm:ss.SSSXXX ，這是一個非法參數。 當您寫出數據幀時需要設置它。

解決方法是將其更改為包含時區的 ZZ。

df.write
.option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ")
.mode(SaveMode.Overwrite)
.csv("my.csv")

Answer 2

確保您使用的是正確版本的 commons-lang3

<dependency>
  <groupId>org.apache.commons</groupId>
  <artifactId>commons-lang3</artifactId>
  <version>3.5</version>
</dependency>

Answer 3

使用 commons-lang3-3.5.jar 修復了原來的錯誤。 我沒有檢查源代碼來說明原因，但這並不奇怪，因為原始異常發生在 org.apache.commons.lang3.time.FastDatePrinter.parsePattern(FastDatePrinter.java:282)。 我還注意到文件 /usr/lib/spark/jars/commons-lang3-3.5.jar（在 EMR 集群實例上），它也表明 3.5 是要使用的一致版本。

Answer 4

我也遇到了這個問題，我的解決方案（原因）是：因為我把格式錯誤的json文件放到了hdfs中。 在我輸入正確的文本或json文件后，它可以正確運行。

Spark 2.2 非法模式組件：XXX java.lang.IllegalArgumentException：非法模式組件：XXX

問題描述

4 個解決方案

解決方案1
30 已采納 2017-09-26 19:12:45

解決方案2
25 2018-01-24 08:22:43

解決方案3
4 2019-02-22 00:17:41

解決方案4
-2 2019-10-26 07:33:22

Spark 2.2 非法模式組件：XXX java.lang.IllegalArgumentException：非法模式組件：XXX

問題描述

4 個解決方案

解決方案1 30 已采納 2017-09-26 19:12:45

解決方案2 25 2018-01-24 08:22:43

解決方案3 4 2019-02-22 00:17:41

解決方案4 -2 2019-10-26 07:33:22

解決方案1
30 已采納 2017-09-26 19:12:45

解決方案2
25 2018-01-24 08:22:43

解決方案3
4 2019-02-22 00:17:41

解決方案4
-2 2019-10-26 07:33:22