簡體   English   中英

我如何從R中的此網站通過Web抓取信息?

[英]How can i web scrape information from this website in R?

該網站http://a810-bisweb.nyc.gov/bisweb/bispi00.jsp用於搜索nyc建築物應用程序信息。 在“應用程序搜索”部分下,有“ BIS職位編號:”,因此我要提取的信息是在輸入職位編號然后單擊“執行”后從新頁面提取的。

例如,從數據集https://data.cityofnewyork.us/Housing-Development/DOB-Job-Application-Filings/ic3t-wcy2中 ,我選擇工作編號220286232,然后轉到第一個網站,將其放入“ BIS職位編號:”,然后單擊“執行”。 現在我得到一個新頁面。 我想要的信息是“申請人記錄信息”(包括申請人聯系信息)。

我被困在這里。 如何提取每個職位編號下的這些申請人信息?

我對網頁抓取非常陌生。 我了解了如何使用rvest從整個頁面中提取信息,但是我不熟悉跨不同網站進行的網絡抓取。

謝謝。

更新:我嘗試使用Socrata API,但是我發現申請人的聯系信息沒有自己的API字段,如果該信息沒有API字段(但是該頁面上的其他信息都有字段),是否意味着我可以使用API​​來解決這個問題?

謝謝!

在該頁面的右上角,單擊“ API”選項卡。 一個新的模式對話框將彈出“通過SODA API訪問此數據集”,復制鏈接,在本例中為https://data.cityofnewyork.us/resource/rvhx-8trz.json 這是一個直接以機器可讀的JSON格式提供數據的URL。 但是一次只能獲取1000條記錄。

因此,也許添加適當的$offset參數。 請參閱Socrata文檔 紐約市似乎將此軟件用於其開放數據平台。

也許在您的R腳本中這樣稱呼他們:

https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=0
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=500
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=1000
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=...

(未試過以獲得更大的偏移量)

使用jsonlite將JSON轉換為R數據幀。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM