我如何從R中的此網站通過Web抓取信息？

Question

該網站http://a810-bisweb.nyc.gov/bisweb/bispi00.jsp用於搜索nyc建築物應用程序信息。 在“應用程序搜索”部分下，有“ BIS職位編號：”，因此我要提取的信息是在輸入職位編號然后單擊“執行”后從新頁面提取的。

例如，從數據集https://data.cityofnewyork.us/Housing-Development/DOB-Job-Application-Filings/ic3t-wcy2中，我選擇工作編號220286232，然后轉到第一個網站，將其放入“ BIS職位編號：”，然后單擊“執行”。 現在我得到一個新頁面。 我想要的信息是“申請人記錄信息”（包括申請人聯系信息）。

我被困在這里。 如何提取每個職位編號下的這些申請人信息？

我對網頁抓取非常陌生。 我了解了如何使用rvest從整個頁面中提取信息，但是我不熟悉跨不同網站進行的網絡抓取。

謝謝。

更新：我嘗試使用Socrata API，但是我發現申請人的聯系信息沒有自己的API字段，如果該信息沒有API字段（但是該頁面上的其他信息都有字段），是否意味着我可以使用API來解決這個問題？

謝謝！

Answer 1

在該頁面的右上角，單擊“ API”選項卡。 一個新的模式對話框將彈出“通過SODA API訪問此數據集”，復制鏈接，在本例中為https://data.cityofnewyork.us/resource/rvhx-8trz.json 。 這是一個直接以機器可讀的JSON格式提供數據的URL。 但是一次只能獲取1000條記錄。

因此，也許添加適當的$offset參數。 請參閱Socrata文檔。 紐約市似乎將此軟件用於其開放數據平台。

也許在您的R腳本中這樣稱呼他們：

https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=0
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=500
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=1000
https://data.cityofnewyork.us/resource/rvhx-8trz.json?$offset=...

（未試過以獲得更大的偏移量）

使用jsonlite將JSON轉換為R數據幀。

我如何從R中的此網站通過Web抓取信息？

問題描述

1 個解決方案

解決方案1
0 2017-09-03 08:23:16

我如何從R中的此網站通過Web抓取信息？

問題描述

1 個解決方案

解決方案1 0 2017-09-03 08:23:16

解決方案1
0 2017-09-03 08:23:16