R-如何从XML Nodeset中提取项目？

Question

我有一个438个投手名称列表，看起来像这样（在XML Nodeset中）：

> pitcherlinks[[1]]
<td class="left " data-append-csv="abadfe01" data-stat="player" csk="Abad,Fernando0.01">
  <a href="/players/a/abadfe01.shtml">FernandoÂ Abad</a>*
</td> 

> pitcherlinks[[2]]
<td class="left " data-append-csv="adlemti01" data-stat="player" csk="Adleman,Tim0.01">
  <a href="/players/a/adlemti01.shtml">TimÂ Adleman</a>
</td>

如何提取FernandoÂ Abad类的名称以及/players/a/abadfe01.shtml类的关联链接

Answer 1

由于您有一个列表，因此将使用apply函数浏览该列表。 每个函数使用read_html通过CSS选择器a解析列表中的hmtl片段，以查找锚点（链接）。 名称来自html_text ，链接位于属性href

library(rvest)
pitcherlinks <- list()
pitcherlinks[[1]] <- 
'<td class="left " data-append-csv="abadfe01" data-stat="player" csk="Abad,Fernando0.01">
  <a href="/players/a/abadfe01.shtml">FernandoÂ Abad</a>*
    </td>'

pitcherlinks[[2]] <- 
  '<td class="left " data-append-csv="adlemti01" data-stat="player" csk="Adleman,Tim0.01">
    <a href="/players/a/adlemti01.shtml">TimÂ Adleman</a>
      </td>'

names <- sapply(pitcherlinks, function(x) {x %>% read_html() %>% html_nodes("a") %>% html_text()})
links <- sapply(pitcherlinks, function(x) {x %>% read_html() %>% html_nodes("a") %>% html_attr("href")})

names
# [1] "FernandoÂ Abad" "TimÂ Adleman"  
links
# [1] "/players/a/abadfe01.shtml"  "/players/a/adlemti01.shtml"

R-如何从XML Nodeset中提取项目？

问题描述

1 个解决方案

解决方案1
2 已采纳 2017-04-24 22:24:46

R-如何从XML Nodeset中提取项目？

问题描述

1 个解决方案

解决方案1 2 已采纳 2017-04-24 22:24:46

解决方案1
2 已采纳 2017-04-24 22:24:46