[英]R inconsistent results from readHTMLTable from XML package during web scraping
我遇到了一个使我疯狂的问题。
我正在尝试读取目录结构,但结果不一致。
这是一些代码:
library(XML)
output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output
如果执行10次左右,“ Last Modify”的结果将有所不同。
这是每个输出的前几行。
情况1:
Name Last modified Size Description
1 <NA> <NA> <NA> <NA>
2 Parent Directory  - Â
3 00/ 02-Feb-2013 16:34 - Â
4 0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
情况2:
Name Last modified Size Description
1 <NA> <NA> <NA> <NA>
2 Parent Directory  - Â
3 00/ 09-Feb-2013 16:31 - Â
4 0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
如果您访问该网站,则可以确定案例2是正确的。
有谁知道为什么这给了我不一致的结果?
有解决方案吗?
提前谢谢!
因此,如果您的唯一目标是获得可再现的结果,则可以使用修改版的readHTMLTable来缓存其输出。 在脚本顶部,定义
library(memoise);
my.readHTMLTable <- memoise(readHTMLTable)
并改用该功能。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.