[英]Scraping https website using getURL
我有一个很好的小包来刮掉谷歌Ngram的数据,但我发现他们已经切换到SSL而我的包已经坏了。 如果我从readLines
切换到getURL
得到一些方法,但页面中的一些包含的脚本丢失了。 我是否需要了解用户代理或其他什么?
这是我到目前为止所尝试的(非常基本):
library(RCurl)
myurl <- "https://books.google.com/ngrams/graph?content=hacker&year_start=1950&year_end=2000"
getURL(myurl)
将结果与在浏览器中输入URL后查看源进行比较后,结果显示返回R的结果中缺少关键内容。在浏览器中,源包含如下内容:
<script type="text/javascript">
var data = [{"ngram": "hacker", "type": "NGRAM", "timeseries": [9.4930387994907051e-09,
1.1685493106483591e-08, 1.0784501440023556e-08, 1.0108472218003532e-08,
等等
任何建议将不胜感激!
对不起,不是直接解决方案,但它似乎不是用户代理问题。 当您在浏览器中打开URL时,您可以看到存在重定向,该地址在地址末尾添加了一个参数: direct_url=t1%3B%2Chacker%3B%2Cc0
。
如果您使用getURL()
下载此新URL,并使用新参数,那么您提到的javascript将出现在结果中。
另一种解决方案可能是尝试通过Google BigQuery访问数据,如本SO问题所述:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.