簡體   English   中英

用 rvest 刮——數據有<table>標簽,但在 html_table() 中找不到

[英]Scraping with rvest -- data has <table> tag but not found with html_table()

我試圖從本網站的表格中抓取一些高中體育成績,但 rvest html_table() 函數什么都不返回……只是一個空列表。 數據似乎清楚地位於表格標簽內,所以我認為這會非常簡單,但事實並非如此。

html_data <- read_html("https://highschoolsports.nj.com/boysbasketball/schedule/2020/01/09")
html_data %>% html_table(html_data)

任何有關如何提取此表的幫助或建議將不勝感激!

您看到的表格是使用 javascript 動態構建的。 該頁面發送一個 xhr 請求,請求一個 json 文件,該文件包含表中的所有數據(以及更多您看不到的數據)。

您需要做的是請求 json 文件,解析它並提取您想要的元素。 以下腳本將為您完成:

library(tidyverse)
library(httr)
library(rjson)

"https://highschoolsports.nj.com/siteapi/games/schedule" %>%
modify_url( query = list( viewStart      = "1/9/2020",
                          sportId        = "15",
                          schoolId       = "",
                          scheduleYearId = ""))          %>%
GET()                                                    %>%
content("text")                                          %>%
fromJSON()                                               %>%
`[[`("games")                                            %>%
lapply(function(x) data.frame(x$gameDate, x$name))       %>%
{do.call("rbind", .)}                                    %>%
as_tibble                                                 ->
result

print(result)
#> # A tibble: 324 x 2
#>    x.gameDate          x.name                                            
#>    <fct>               <fct>                                             
#>  1 2020-01-09T00:00:00 Manville (43) at Pingry (77)                      
#>  2 2020-01-09T00:00:00 Eastern (41) at Cherokee (54)                     
#>  3 2020-01-09T00:00:00 Woodbridge (31) at Colonia (54)                   
#>  4 2020-01-09T00:00:00 Phillipsburg (64) at Bridgewater-Raritan (71)     
#>  5 2020-01-09T05:30:00 Asbury Park (44) at Point Pleasant Beach (50)     
#>  6 2020-01-09T07:00:00 Montclair Immaculate (78) at Newark East Side (49)
#>  7 2020-01-09T15:45:00 Christian Brothers (67) at Howell (62)            
#>  8 2020-01-09T16:00:00 West Caldwell Tech (59) at Weequahic (60)         
#>  9 2020-01-09T16:00:00 Scotch Plains-Fanwood (20) at Westfield (55)      
#> 10 2020-01-09T16:00:00 Summit (59) at Cranford (44)                      
#> # ... with 314 more rows

如果你在 json 中挖掘,很容易獲得個人分數等,所以如果你想要一個在數據框列中包含這些數據的表,你可以更改lapply命令中的函數以選擇你想要的那些作為條目你的數據框。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM