Web抓取期间XML包中的readHTMLTable产生的R不一致的结果

Question

我遇到了一个使我疯狂的问题。

我正在尝试读取目录结构，但结果不一致。

这是一些代码：

library(XML)

output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output

如果执行10次左右，“ Last Modify”的结果将有所不同。

这是每个输出的前几行。

情况1：

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 02-Feb-2013 16:34    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

情况2：

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 09-Feb-2013 16:31    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

如果您访问该网站，则可以确定案例2是正确的。

有谁知道为什么这给了我不一致的结果？

有解决方案吗？

提前谢谢！

Answer 1

因此，如果您的唯一目标是获得可再现的结果，则可以使用修改版的readHTMLTable来缓存其输出。 在脚本顶部，定义

library(memoise); 
my.readHTMLTable <- memoise(readHTMLTable)

并改用该功能。

Web抓取期间XML包中的readHTMLTable产生的R不一致的结果

问题描述

1 个解决方案

解决方案1
0

Web抓取期间XML包中的readHTMLTable产生的R不一致的结果

问题描述

1 个解决方案

解决方案1 0

解决方案1
0