如何將復雜的XML解析為R中的長格式數據幀

Question

我試圖將XML解析為R數據幀。

xml.text <- 
  '<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<recordGroup>
    <period>60</period>
    <record>
        <dateTime>01102015000000</dateTime>
        <field>
            <id>Equipos.0CR02-1.AE</id>
            <value>34.405000</value>
        </field>
        <field>
            <id>Equipos.0CR02-1.API</id>
            <value>160.794000</value>
        </field>
    </record>
    <record>
        <dateTime>01102015001500</dateTime>
    <field>
      <id>Equipos.0CR02-1.AE</id>
      <value>38.309000</value>
    </field>
    <field>
      <id>Equipos.0CR02-1.API</id>
      <value>152.800000</value>
    </field>
  </record>
</recordGroup>'

library(XML)
xml <- xmlParse(xml.text)
indata <- xmlToDataFrame(getNodeSet(xml, "//recordGroup/record")[1])

我只用一條記錄就可以了。 結果是它創建了一個包含兩列（ dateTime和field ）並且只有一行的表。 字段下方標記之間的所有文本都連接在一起：

    dateTime                                                      field
1 01102015000000 Equipos.0CR02-1.AE34.405000\nEquipos.0CR02-1.API160.794000

由於dateTime適用於兩個字段結構，因此需要獲取長格式表結構，如下所示：

    dateTime            id               value
1 01102015000000 Equipos.0CR02-1.AE    34.405000
2 01102015000000 Equipos.0CR02-1.API  160.794000
3 01102015001500 Equipos.0CR02-1.AE    38.309000
4 01102015001500 Equipos.0CR02-1.API  152.800000
...

Answer 1

你的xml有點亂，但我們可以解決它：

library(XML)
xml <- xmlParse(xml.text)
xmlout <- do.call(rbind, xpathApply(xml,'//recordGroup/record', xmlToDataFrame))

這給你：

            text                  id      value
1 01102015000000                <NA>       <NA>
2           <NA>  Equipos.0CR02-1.AE  34.405000
3           <NA> Equipos.0CR02-1.API 160.794000
4 01102015001500                <NA>       <NA>
5           <NA>  Equipos.0CR02-1.AE  38.309000
6           <NA> Equipos.0CR02-1.API 152.800000

然后你可以用tidyr和dplyr清理它：

library(tidyr)
library(dplyr)

xmlout %>% fill(text) %>%
           na.omit

            text                  id      value
2 01102015000000  Equipos.0CR02-1.AE  34.405000
3 01102015000000 Equipos.0CR02-1.API 160.794000
5 01102015001500  Equipos.0CR02-1.AE  38.309000
6 01102015001500 Equipos.0CR02-1.API 152.800000

如何將復雜的XML解析為R中的長格式數據幀

問題描述

1 個解決方案

解決方案1
3 2015-10-27 16:08:48

如何將復雜的XML解析為R中的長格式數據幀

問題描述

1 個解決方案

解決方案1 3 2015-10-27 16:08:48

解決方案1
3 2015-10-27 16:08:48