簡體   English   中英

當網址為靜態時,如何從多頁信息中抓取數據?

[英]How do I scrape data off of multiple pages of info when the URL is static?

我正在學習如何使用R從網頁中抓取數據。我正在使用的網站是:

http://sheriff.franklincountyohio.gov/search/real-estate/results.aspx?q=searchType%3dSaleDate%26searchString%3d12%2f26%2f2014+12%3a00%3a00+AM%26foreclosureType%3d%26sortType%3ddefendant% 26saleDateFrom%3D%26saleDateTo%3D

問題在於列表不在1頁上,而是在7個不同的頁面上。 用戶通過底部的箭頭按鈕導航到下一頁。 但是,URL是靜態的。 無論是在第1頁還是第5頁,URL都保持不變。 因此,我不知道如何將R指向下一頁以檢索其他信息。

目前,我使用readLines來獲取頁面中的數據。

con <- url("http://sheriff.franklincountyohio.gov/search/real-estate/results.aspx?q=searchType%3dSaleDate%26searchString%3d12%2f26%2f2014%26foreclosureType%3d%26sortType%3ddefendant")
html <- readLines(con)
close(con)

然后使用XML包開始解析我想要的數據。

html.data <- htmlTreeParse(html, useInternalNodes = TRUE)

由於防火牆的緣故,我在使用XML,RCurl和httr軟件包時遇到了麻煩。 上面的方法似乎是我抓取數據的唯一方法。 因此,我可能會受限於跟蹤鏈接的功能。

任何幫助,將不勝感激! 我搜索了一堆,似乎找不到答案。

在網頁中,您具有“打印銷售清單”按鈕,該按鈕顯示一個新的清單,該信息將所有信息匯總到一個頁面中(也許在您發布問題時,該網頁沒有該按鈕)。

url<-'http://sheriff.franklincountyohio.gov/search/real-estate/printresults.aspx?q=searchType%3dSaleDate%26searchString%3d12%2f26%2f2014+12%3a00%3a00+AM%26foreclosureType%3d%26sortType%3ddefendant%26saleDateFrom%3d%26saleDateTo%3d'
table<-readHTMLTable(url)
table1<-as.data.frame(table)
str(table1)
'data.frame':   92 obs. of  8 variables:
 $ c_printsearchresults_gvResults.Case.Number         : Factor w/ 92 levels "07CV4653\r\n                        PLURIESBANKRUPTCY",..: 23 47 33 90 91 82 85 77 68 83 ...
 $ c_printsearchresults_gvResults.Property.Address    : Factor w/ 92 levels "1038\r\n                        \r\n                        \r\n                        S OHIO AVENUE\r\n                      "| __truncated__,..: 7 80 85 26 79 37 83 55 51 33 ...
 $ c_printsearchresults_gvResults.Plaintiff...Attorney: Factor w/ 83 levels "Plaintiff:\r\n                        \r\n                        BAC HOME LOANS SERVICING LP FKA COUNTRYWIDE HOME LOANS SERVIC"| __truncated__,..: 5 31 80 74 49 14 73 52 39 41 ...
 $ c_printsearchresults_gvResults.Defendant           : Factor w/ 92 levels "ADEDEJI-FAJOBI/MODUPE/O",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ c_printsearchresults_gvResults.Appraised           : Factor w/ 59 levels "$10,268.33","$10,988.28",..: 48 20 18 10 25 6 41 58 35 15 ...
 $ c_printsearchresults_gvResults.Opening.Bid         : Factor w/ 63 levels "$10,268.33","$10,988.28",..: 38 5 4 52 11 51 29 45 23 63 ...
 $ c_printsearchresults_gvResults.Deposit             : Factor w/ 61 levels "$1,200.00","$10,268.33",..: 49 20 18 53 26 7 42 58 28 16 ...
 $ c_printsearchresults_gvResults.Sale.Date           : Factor w/ 1 level "12/26/2014": 1 1 1 1 1 1 1 1 1 1 ...

如果要刪除或分隔更多列中的數據,則可以使用正則表達式。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM