[英]How can i web scrape information from this website in R?
該網站http://a810-bisweb.nyc.gov/bisweb/bispi00.jsp用於搜索nyc建築物應用程序信息。 在“應用程序搜索”部分下,有“ BIS職位編號:”,因此我要提取的信息是在輸入職位編號然后單擊“執行”后從新頁面提取的。
例如,從數據集https://data.cityofnewyork.us/Housing-Development/DOB-Job-Application-Filings/ic3t-wcy2中 ,我選擇工作編號220286232,然后轉到第一個網站,將其放入“ BIS職位編號:”,然后單擊“執行”。 現在我得到一個新頁面。 我想要的信息是“申請人記錄信息”(包括申請人聯系信息)。
我被困在這里。 如何提取每個職位編號下的這些申請人信息?
我對網頁抓取非常陌生。 我了解了如何使用rvest從整個頁面中提取信息,但是我不熟悉跨不同網站進行的網絡抓取。
謝謝。
更新:我嘗試使用Socrata API,但是我發現申請人的聯系信息沒有自己的API字段,如果該信息沒有API字段(但是該頁面上的其他信息都有字段),是否意味着我可以使用API來解決這個問題?
謝謝!
在該頁面的右上角,單擊“ API”選項卡。 一個新的模式對話框將彈出“通過SODA API訪問此數據集”,復制鏈接,在本例中為https://data.cityofnewyork.us/resource/rvhx-8trz.json 。 這是一個直接以機器可讀的JSON格式提供數據的URL。 但是一次只能獲取1000條記錄。
因此,也許添加適當的$offset
參數。 請參閱Socrata文檔 。 紐約市似乎將此軟件用於其開放數據平台。
也許在您的R腳本中這樣稱呼他們:
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=0
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=500
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=1000
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=...
(未試過以獲得更大的偏移量)
使用jsonlite將JSON轉換為R數據幀。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.