Apache Spark to_json选项参数

Question

我或者不知道我在寻找什么，或者缺少文档。 鉴于这种情况，后者似乎是这样：

http://spark.apache.org/docs/2.2.2/api/java/org/apache/spark/sql/functions.html#to_json-org.apache.spark.sql.Column-java.util.Map-

“ options-用于控制如何将struct列转换为json字符串的选项。接受相同的选项和json数据源。”

大！ 那么，我有什么选择呢？

我正在做这样的事情：

Dataset<Row> formattedReader = reader
    .withColumn("id", lit(id))
    .withColumn("timestamp", lit(timestamp))
    .withColumn("data", to_json(struct("record_count")));

...我得到这个结果：

{
  "id": "ABC123",
  "timestamp": "2018-11-16 20:40:26.108",
  "data": "{\"record_count\": 989}"
}

我想要这样（从“数据”中删除反斜杠和引号）：

{
  "id": "ABC123",
  "timestamp": "2018-11-16 20:40:26.108",
  "data": {"record_count": 989}
}

这是偶然的选择之一吗？ 是否有更好的Spark指南？ 关于Spark的最令人沮丧的部分不是让它做我想要的事情，而是缺少关于它可以做什么的良好信息。

Answer 1

您对record_count字段进行了两次json编码。 删除to_json。 仅使用struct就足够了。

如将您的代码更改为这样。

Dataset<Row> formattedReader = reader
    .withColumn("id", lit(id))
    .withColumn("timestamp", lit(timestamp))
    .withColumn("data", struct("record_count"));

Apache Spark to_json选项参数

问题描述

1 个解决方案

解决方案1
1 已采纳 2018-11-20 06:04:52

Apache Spark to_json选项参数

问题描述

1 个解决方案

解决方案1 1 已采纳 2018-11-20 06:04:52

解决方案1
1 已采纳 2018-11-20 06:04:52