[英]R inconsistent results from readHTMLTable from XML package during web scraping
我遇到了一個使我瘋狂的問題。
我正在嘗試讀取目錄結構,但結果不一致。
這是一些代碼:
library(XML)
output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output
如果執行10次左右,“ Last Modify”的結果將有所不同。
這是每個輸出的前幾行。
情況1:
Name Last modified Size Description
1 <NA> <NA> <NA> <NA>
2 Parent Directory  - Â
3 00/ 02-Feb-2013 16:34 - Â
4 0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
情況2:
Name Last modified Size Description
1 <NA> <NA> <NA> <NA>
2 Parent Directory  - Â
3 00/ 09-Feb-2013 16:31 - Â
4 0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
如果您訪問該網站,則可以確定案例2是正確的。
有誰知道為什么這給了我不一致的結果?
有解決方案嗎?
提前謝謝!
因此,如果您的唯一目標是獲得可再現的結果,則可以使用修改版的readHTMLTable來緩存其輸出。 在腳本頂部,定義
library(memoise);
my.readHTMLTable <- memoise(readHTMLTable)
並改用該功能。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.