簡體   English   中英

如何在R中讀取多個PDF文件?

[英]How to read multiple PDF files in R?

我有一個腳本,可以用來讀取多個PDF文件。 這是我的代碼

corpus_raw <- data.frame("company" = c(),"text" = c(), check.names = FALSE)

for (i in 1:length(pdf_list)){
  print(i)
  document_text <- pdf_text(paste("V:/CodingProject2_FundOverview/", pdf_list[i],sep = "")) %>% 
    strsplit("\r\n") 

  document <- data.frame("company" = gsub(x = pdf_list[i],pattern = ".pdf", replacement = ""), 
              "text" = document_text, stringsAsFactors = FALSE, check.names = FALSE)

  colnames(document) <- c("company", "text")
  corpus_raw <- rbind(corpus_raw,document) 
}

我收到以下錯誤消息:

Error in (function (..., row.names = NULL, check.rows = FALSE, check.names = TRUE,  : 
  arguments imply differing number of rows: 79, 56

我什至試圖保持check.names = FALSE但似乎我做錯了。 任何幫助將不勝感激。 謝謝

我知道我在做一些愚蠢的事情。 無論如何,我自己就能找到答案。

for (i in 1:length(pdf_list)){
  print(i)
  document_text <- pdf_text(paste("V:/CodingProject2_FundOverview/", pdf_list[i],sep = "")) %>% 
    strsplit("\r\n") 

  document <- data.frame("company" = gsub(x = pdf_list[i],pattern = ".pdf", replacement = ""), 
              "text" = I(document_text), stringsAsFactors = FALSE, check.names = FALSE)

  colnames(document) <- c("company", "text")
  corpus_raw <- rbind(corpus_raw,document) 
}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM