[英]Extracting text/number from tspan class tag HTML with R
我正在尝试从此网站http://okg.se/sv/Produktionsinformation/ (在下面的蓝色区域中)提取当前生产编号。
这是我需要使用的 HTML 代码部分:
<tspan dy="0" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);">518</tspan>
我使用的代码示例:
url <- "http://okg.se/sv/Produktionsinformation//"
download.file(url, destfile = "scrapedpage.html", quiet=TRUE)
content <- read_html("scrapedpage.html")
content %>% html_nodes(".content__info__item__value")
但是我得到的结果表明没有可用的节点:
{xml_nodeset (0)}
你对如何解决这个问题有什么想法吗?
提前致谢!
我不太确定你需要的价值,但这项工作
librar(rvest)
# page url
url <- "http://okg.se/sv/Produktionsinformation/"
# current value
read_html(url) %>%
html_nodes(".footer__gauge") %>%
html_attr("data-current")
# Max value
read_html(url) %>%
html_nodes(".footer__gauge") %>%
html_attr("data-max")
您在浏览器中看到的 html 已被 javascript 处理过,因此与您在 rvest 中看到的 html 不同。
您要查找的原始数据实际上存储在 id 为“gauge”的div
属性中,因此您可以像这样得到它:
library(rvest)
#> Loading required package: xml2
"http://okg.se/sv/Produktionsinformation//" %>%
read_html() %>%
html_node("#gauge") %>%
html_attrs() %>%
`[`(c("data-current", "data-max"))
#> data-current data-max
#> "553" "1450"
请注意,您不需要将 html 保存到本地驱动器来处理它。 您可以通过将 url 提供给read_html
来直接从互联网上阅读它
由reprex 包(v0.3.0) 于 2020 年 2 月 20 日创建
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.