Web抓取期間XML包中的readHTMLTable產生的R不一致的結果

Question

我遇到了一個使我瘋狂的問題。

我正在嘗試讀取目錄結構，但結果不一致。

這是一些代碼：

library(XML)

output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output

如果執行10次左右，“ Last Modify”的結果將有所不同。

這是每個輸出的前幾行。

情況1：

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 02-Feb-2013 16:34    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

情況2：

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 09-Feb-2013 16:31    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

如果您訪問該網站，則可以確定案例2是正確的。

有誰知道為什么這給了我不一致的結果？

有解決方案嗎？

提前謝謝！

Answer 1

因此，如果您的唯一目標是獲得可再現的結果，則可以使用修改版的readHTMLTable來緩存其輸出。 在腳本頂部，定義

library(memoise); 
my.readHTMLTable <- memoise(readHTMLTable)

並改用該功能。

Web抓取期間XML包中的readHTMLTable產生的R不一致的結果

問題描述

1 個解決方案

解決方案1
0

Web抓取期間XML包中的readHTMLTable產生的R不一致的結果

問題描述

1 個解決方案

解決方案1 0

解決方案1
0