SparkR，将一列嵌套的JSON字符串拆分为多个列

Question

我来自R，是SparkR的新手，并尝试将JSON字符串的SparkDataFrame列拆分为相应的列。 Spark DataFrame中的列是具有以下架构的数组：

> printSchema(tst)
root
 |-- FromStation: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- ToStation: array (nullable = true)
 |    |-- element: string (containsNull = true)

如果查看View(head(tst$FromStation))器中的数据View(head(tst$FromStation))我可以看到SparkDataFrame的FromStation列在每一行中都有这样的形式：

list("{\"Code\":\"ABCDE\",\"Name\":\"StationA\"}", "{\"Code\":\"WXYZP\",\"Name\":\"StationB\"}", "{...

...表示模式重复的次数未知。

我的问题

如何提取此信息并将其放入平面数据框中？ 理想情况下，我想为嵌套数组列中的每个观察结果创建一个FromStationCode和FromStationName列。 我尝试了explode和getItem各种组合...但无济于事。 我不断收到数据类型不匹配错误。 我在Spark中搜索了其他遇到此挑战的人的示例，但SparkR的示例更为稀缺。 我希望有更多使用Spark / SparkR经验的人可以提供一些见解。

非常感谢，天生

Answer 1

我想你需要将tst转换为普通的R对象

df = collect(tst)

然后您可以像其他R data一样使用df进行操作。

SparkR，将一列嵌套的JSON字符串拆分为多个列

问题描述

1 个解决方案

解决方案1
0 2017-04-02 01:46:40

SparkR，将一列嵌套的JSON字符串拆分为多个列

问题描述

1 个解决方案

解决方案1 0 2017-04-02 01:46:40

解决方案1
0 2017-04-02 01:46:40