使用 Spark / Scala 从 XML 记录中提取元素

Question

我正在尝试从 XML 记录中提取元素，其中每个 xml 文件都有许多 XML 记录。 下面是我正在使用的修改后的代码和示例 xml。

我期待一个字符串数组，其中数组的每个元素都是"user:id"但结果是":" 。 我期待XML.loadString解析每个文件，结果将是单独的 XML 记录。 这意味着如果我以两个示例文件为例，我最终会得到 4 个 XML 记录。 照原样，是两个。

在获取next一个之后添加println(d)之后，我得到的是代表文件的整个字符串，这可能是getId和getUser函数不返回任何内容的原因。

我是否错误地处理了负载？

import org.apache.spark.{SparkConf, SparkContext}
import scala.xml._
import scala.collection.mutable.ArrayBuffer

object Details {

    def getDetails(xmlstring: String): Iterator[Node] = {
        val nodes = XML.loadString(xmlstring)
        nodes.toIterator
    }

    def getId(detail: Node): String = {
        (detail \ "id").text
    }

    def getUser(detail: Node): String = {
        (detail \ "user").text
    }

    def getDetailList(details: Iterator[Node]): Array[String] = {
        var list = ArrayBuffer[String]()
        while (details.hasNext) {
            val d = details.next
            val user = getUser(d)
            val id = getId(d)
            val formattedText = user + ":" + id
            list += formattedText
        }
        list.toArray
    }

    def main(args: Array[String]) {

        val conf = new SparkConf().setAppName("Details")
        val sc: SparkContext = new SparkContext(conf)

        val lines = sc.wholeTextFiles("file:///path/to/files/")
        val xmlStrings = lines.map(line => line._2)
        val detailsRecords = xmlStrings.map(getDetails)
        val detailsList = detailsRecords.map(getDetailList)

        spark.stop()
    }
}

和两个示例文件...

test.xml

<details>
  <detail>
    <user>Dan</user>
    <id>5555</id>
  </detail>
  <detail>
    <user>Mike</user>
    <id>6666</id>
  </detail>
</details>

test2.xml

<details>
  <detail>
    <user>John</user>
    <id>1234</id>
  </detail>
  <detail>
    <user>Joe</user>
    <id>5678</id>
  </detail>
</details>

Answer 1

您应该将XML 用于 Spark 。

使用此库，您可以像这样读取所有xml 文件：

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)

val df = sqlContext.read
   .format("com.databricks.spark.xml")
   .option("rowTag", "detail")
   .load("/home/path-with-xml-files")

这将生成一个具有架构的 DataFrame：

+----+----+
|  id|user|
+----+----+
|5555| Dan|
|6666|Mike|
|1234|John|
|5678| Joe|
+----+----+

然后从这个 DF 得到一个数组：

val id_users_array = df.collect

该数组具有以下类型：

id_users_array: Array[org.apache.spark.sql.Row] = Array([5555,Dan], [6666,Mike], [1234,John], [5678,Joe])

如果您只想打印 ID：

id_users_array.map(r => r.get(0)).foreach(println)

输出：

希望这可以帮助。

Answer 2

已经晚了 4 个月，但我想我得到了你的答案。

问题在于getDetails()函数。 你必须告诉 Scala 什么被定义为“节点”，在这种情况下是<detail> 。 所以只需修改你的代码如下：

  def getDetails(xmlstring: String): Iterator[Node] = {
    val nodes = XML.loadString(xmlstring) \\ "detail"
    nodes.toIterator
  }

在XML.loadString()末尾附加\\\\ "detail"是让代码按预期工作所需的全部内容。

干杯，

使用 Spark / Scala 从 XML 记录中提取元素

问题描述

2 个解决方案

解决方案1
1 2018-10-09 02:17:23

解决方案2
1 2019-03-06 00:09:39

使用 Spark / Scala 从 XML 记录中提取元素

问题描述

2 个解决方案

解决方案1 1 2018-10-09 02:17:23

解决方案2 1 2019-03-06 00:09:39

解决方案1
1 2018-10-09 02:17:23

解决方案2
1 2019-03-06 00:09:39