使用 R 从 tspan 类标签 HTML 中提取文本/数字

Question

我正在尝试从此网站http://okg.se/sv/Produktionsinformation/ （在下面的蓝色区域中）提取当前生产编号。

这是我需要使用的 HTML 代码部分：

<tspan dy="0" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);">518</tspan>

我使用的代码示例：

url <- "http://okg.se/sv/Produktionsinformation//"
download.file(url, destfile = "scrapedpage.html", quiet=TRUE)
content <- read_html("scrapedpage.html")
content %>% html_nodes(".content__info__item__value")

但是我得到的结果表明没有可用的节点：

{xml_nodeset (0)}

你对如何解决这个问题有什么想法吗？

提前致谢！

Answer 1

我不太确定你需要的价值，但这项工作

librar(rvest)

# page url
url <- "http://okg.se/sv/Produktionsinformation/"

# current value
read_html(url) %>%
  html_nodes(".footer__gauge") %>%
  html_attr("data-current")

# Max value
read_html(url) %>%
  html_nodes(".footer__gauge") %>%
  html_attr("data-max")

Answer 2

您在浏览器中看到的 html 已被 javascript 处理过，因此与您在 rvest 中看到的 html 不同。

您要查找的原始数据实际上存储在 id 为“gauge”的div属性中，因此您可以像这样得到它：

library(rvest)
#> Loading required package: xml2

"http://okg.se/sv/Produktionsinformation//" %>%
read_html()                                 %>%
html_node("#gauge")                         %>% 
html_attrs()                                %>%
`[`(c("data-current", "data-max"))
#> data-current     data-max 
#>        "553"       "1450"

请注意，您不需要将 html 保存到本地驱动器来处理它。 您可以通过将 url 提供给read_html来直接从互联网上阅读它

^{由reprex 包(v0.3.0) 于 2020 年 2 月 20 日创建}

使用 R 从 tspan 类标签 HTML 中提取文本/数字

问题描述

2 个解决方案

解决方案1
2 已采纳 2020-02-20 13:31:23

解决方案2
2 2020-02-20 13:52:14

使用 R 从 tspan 类标签 HTML 中提取文本/数字

问题描述

2 个解决方案

解决方案1 2 已采纳 2020-02-20 13:31:23

解决方案2 2 2020-02-20 13:52:14

解决方案1
2 已采纳 2020-02-20 13:31:23

解决方案2
2 2020-02-20 13:52:14