使用R刮取多個頁面的HTML表格

Question

我試圖通過從網上抓取來制作數據框。 但是有很多頁面組成了我試圖抓住的表格。 相同的鏈接，但頁面是不同的。

對於第一頁，我就是這樣做的：

library(XML)
CB.13<- "http://www.nfl.com/stats/categorystats?tabSeq=1&season=2013&seasonType=REG&experience=&Submit=Go&archive=false&conference=null&d-447263-p=1&statisticPositionCategory=DEFENSIVE_BACK&qualified=true"
CB.13<- readHTMLTable(CB.13, header=FALSE)
cornerback.function<- function(CB.13){
  first<- "1"
  last<- "1"
  for (i in 1:length(CB.13)){
    lastrow<- nrow(CB.13[[i]])
    lastcol<- ncol(CB.13[[i]])
    if(as.numeric(CB.13[[i]] [1,1]) ==first & as.numeric(CB.13[[i]] [lastrow, lastcol]) ==last) {
      tab <- i
    }
  }
}
cornerback.function(CB.13)
cornerbacks.2013<- CB.13[[tab]]
cb.names<- c("Rk", "name", "Team", "Pos", "Comb", "Total", "Ast", "Sck", "SFTY", "PDef", "Int", "TDs", "Yds", "Lng", "FF", "Rec", "TD")
names(cornerbacks.2013)<- cb.names

我需要多年這樣做，所有這些都有多個頁面 - 所以有更快的方法來獲取數據的所有頁面而不必為表格的每個頁面執行此操作並合並它們嗎？ 下一個鏈接是http://www.nfl.com/stats/categorystats?tabSeq=1&season=2013&seasonType=REG&Submit=Go&experience=&archive=false&conference=null&d-447263-p=2&statisticPositionCategory=DEFENSIVE_BACK&qualified=true

今年有8頁 - 也許是for循環遍歷頁面？

Answer 1

您可以使用paste0動態創建URL，因為它們略有不同。 在某一年中，您只需更改頁碼。 你得到一個網址結構，如：

url <- paste0(url1,year,url2,page,url3) ## you change page or year or both

您可以創建一個循環遍歷不同頁面的函數，並返回一個表。 然后你可以使用經典的do.call(rbind,..)綁定它們：

library(XML)
url1 <- "http://www.nfl.com/stats/categorystats?tabSeq=1&season="
year <- 2013
url2 <- "&seasonType=REG&experience=&Submit=Go&archive=false&conference=null&d-447263-p="
page <- 1
url3 <- "&statisticPositionCategory=DEFENSIVE_BACK&qualified=true"

getTable <- 
  function(page=1,year=2013){
    url <- paste0(url1,year,url2,page,url3)
    tab = readHTMLTable(url,header=FALSE) ## see comment !!
    tab$result
}
## this will merge all tables in a single big table
do.call(rbind,lapply(seq_len(8),getTable,year=2013))

一般方法

一般方法是使用一些xpath標記廢棄下一頁url並循環直到沒有任何新的下一頁。 這可能更難做，但它是最干凈的解決方案。

getNext <- 
function(url=url_base){
  doc <- htmlParse(url)
  XPATH_NEXT = "//*[@class='linkNavigation floatRight']/*[contains(., 'next')]"
  next_page <- unique(xpathSApply(doc,XPATH_NEXT,xmlGetAttr,'href'))
  if(length(next_page)>0)
    paste0("http://www.nfl.com",next_page)
  else ''
}
## url_base is your first  url
res <- list()
while(TRUE){
  tab = readHTMLTable(url_base,header=FALSE)
  res <- rbind(res,tab$result)
  url_base <- getNext(url_base)
  if (nchar(url_base)==0)
    break
}

使用R刮取多個頁面的HTML表格

問題描述

1 個解決方案

解決方案1
7 2014-04-23 00:33:00

一般方法

使用R刮取多個頁面的HTML表格

問題描述

1 個解決方案

解決方案1 7 2014-04-23 00:33:00

一般方法

解決方案1
7 2014-04-23 00:33:00