[英]How to scrape javascript table in R?
我想从citibike中刮一张桌子: https ://s3.amazonaws.com/tripdata/index.html
我的目标是一次性获取zip文件的URL,而不是手动键入所有日期并每次下载一个。 由于网页每月更新一次,每次运行该功能时,我都希望能够获取所有最新的数据文件。
我首先尝试使用Rvest和XML包,然后意识到网页包含html和由javascript函数生成的表。 这就是问题所在。
非常感谢任何帮助,如果我能提供更多信息,请告诉我。
如果我转到https://s3.amazonaws.com/tripdata/ (只是root,没有index.html
),我会得到一个简单的XML文件。 如果要解析XML,则相关元素为Key
(大写K,小写e,y),但我只搜索纯文本,即:忽略XML,将其视为简单的文本文件,获取<Key>
和</Key>
将其视为文件名,并使用前缀https://s3.amazonaws.com/tripdata/
来获取它。
第一个条目就像它看起来一样(170 MB),所以你可能只对它有好处。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.