標簽[pdftools] - 堆棧內存溢出

[英]r pdftools: Combine multiple pages into a single page

pdf_combine r package 中的pdf_combine function可用於合並不同的 pdf 文檔。想知道是否有一種方法可以將這四個頁面組合成一個頁面，例如每張打印多頁。 ...

[英]Read table from PDF with partially filled column using Pdftools

我在 R 中寫了一個 function，使用 pdftools 從 pdf 中讀取一個表。function 完成了工作，但不幸的是，該表包含一個注釋列，僅部分填充。結果，結果表中的數據在包含注釋的行中移動了一列。這是桌子。這是代碼：和 output。我怎樣才能最好地避免這個問題？提前謝 ...

僅加載許多 pdf 的名稱並制作數據框

[英]Load only the names of many pdfs and make data frame

我需要獲取設置許多 pdf 文件（36000 個文件）的名稱。但只有名稱不會加載所有 object。最后制作一個這樣的數據框： 21個示例文件的鏈接： https://drive.google.com/drive/folders/1zUKyVJFICq4Q69zs48wqFNq1UPDvCg ...

在R中提取多個pdf的起始行和結束行之間的文本

[英]Extract text between start line and end line for multiple pdfs in R

我想問一個與此相關的問題： r - 如何在兩個符號之間提取多行文本？但我沒有足夠的聲譽發表評論，所以它必須是一個全新的問題。我已經使用以下代碼上傳了文件：然后是該問題的答案的代碼：但我的開始略有不同（即第 1.234 號法令等），結束是相同的，一個簽名。所以我不想要每個pdf中 ...

將多列分成更多列

[英]separating multiple columns into more columns

我抓取的 pdf 中的文本混雜在不同的元素中。更不用說，它在轉換為數據框時刪除了數據。真的很難說文本應該在哪里拆分，因為我在下面的代碼中似乎是正確的。如何拆分文本使其看起來像原始表格？它看起來像什么它應該是什么樣子 ...

在R中每2頁將PDF文件拆分為多個文件

[英]Split PDF files in multiples files every 2 pages in R

我有一個 300 頁的 PDF 文檔。我需要將此文件拆分為 150 個文件，每個文件包含 2 頁。例如，第一個文檔將包含原始文件的第 1 頁和第 2 頁、第 2 個文檔、第 3 頁和第 4 頁等等。也許我可以使用“pdftools”包，但我不知道如何。 ...

刮兩列PDF

[英]Scraping two-column PDF

我嘗試為一個項目抓取數百個 PDF 的文本。 PDF 有標題頁、頁眉、頁腳和兩列。我嘗試了pdftools和tabulizer包。但是，兩者都有其優點和缺點： pdftools 中的pdf_text() function 可以正確讀取 PDF，只有一些可以手動解決的編碼問題，但它沒有考慮到 ...

從多個 PDF 文件中提取文本到結構化數據表

[英]Extract text from multiple PDF-files to a structured data table

我是這個平台的新手，希望有人可以幫助我。我已經使用 pdftools 庫將一些 pdf 文件導入到 Rstudio 中。現在我想制作這個文本的結構化列。我似乎無法使結構正確。這是我導入的添加的一個文件的示例。我想在數據表中制作黃色陰影線。這是我最終想要的結果。現在我已經輸入了下面的 ...

R：從 PDF 中提取日期和數字

[英]R: extract dates and numbers from PDF

我真的很難從 NTSB 的數千個 PDF 文件中提取正確的信息（具體的一些日期和數字）；這些 PDF 不需要進行 OCRed，每個報告的長度和布局信息幾乎相同。我需要提取事故發生的日期和時間（第一頁）以及其他一些信息，例如飛行員的年齡或飛行經驗。我嘗試過的內容適用於幾個文件，但不適用於每個文件 ...

從 R 中的換行文本創建表

[英]Create table from wrapped text in R

編輯：從基於名為 a 的變量的文本中，我想獲得一個表格，其中將展開描述單元格。我想要的結果： ...

R 查找列表元素以從 pdf 中提取表

[英]R Find element of the list to extract table from pdf

我正在嘗試使用 pdftools package 從 pdf 中提取數據表。我的源文件在這里： https://hypo.org/app/uploads/sites/2/2021/11/HYPOSTAT-2021_vdef.pdf 。說，我想從第 170 頁的表 20 中提取數據（名義房價的變化 ...

如何使用 R 更改 tesseract 的頁面分割方法 (PSM)？

[英]How to change tesseract's Page Segmentation Method (PSM) using R?

我想使用 tesseract 將掃描的 PDF 文檔讀入 R。一般來說，這已經很好地工作了，但是當文檔具有表結構時我會遇到問題。經過一段時間的研究，我發現有一個參數可以設置頁面分割方法（PSM）。實際上，默認值是為書頁設計的，因此更改此參數應該會提高性能。 https://tesserac ...

我需要使用 RSelenium 來下載這些 PDF 嗎？

[英]Do I need to use RSelenium to download these PDFs?

我正在嘗試通過此頁面將 rvest 和 pdftools 用於 go 並下載 PDF。我在使用 CSS 選擇器執行此操作時遇到問題，想知道這是否需要網絡驅動程序？此外，在 R 中使用網絡驅動程序是否足夠容易 - 作為 R 用戶的初學者？ ...

將掃描的 PDF 轉換為可搜索的 PDF（在 R 中）

[英]Convert scanned PDF to searcheable PDF (in R)

我正在嘗試使用tesseract和pdftools包將一系列掃描的 PDF 轉換為可搜索的 PDF 。我已經完成了兩個步驟。現在我需要寫回一個可搜索的 pdf。讀取掃描 PDF 運行 OCR 寫回可搜索的 PDF 或者，我可以在 R 中為 Windows 調用另一個 package 或命令行 ...

我有兩套來自不同文件夾的 pdf，我基於相同的名稱加入了一個，output 在第一個 pdf 組的同一文件夾中

[英]I have two sets of pdf from different folders that i went to join as one based on the same name and output in the same folder of first pdf group

我有兩個文件夾目錄文件夾 1 包含文件文件夾 2 包含文件如果文件夾 1 和 2 中的 pdf 共享前 6 個數字，那么我想加入它們並在directory1 1 中創建一個名為 ...

如何系統地從教科書中提取數據

[英]How to systematically extract data from a textbook

{edited} 大家好！我正在嘗試從教科書 (pdf) 中系統地提取數據。由於此任務不容易轉化為可重現的示例，因此我在此處提供了本書中的 2 頁作為示例。這兩頁包含物種學名列表（屬種）和一系列 2 字符代碼。我想從提供的 2 頁示例中提取所有物種的學名及其代碼。這是我想要提取的示例 ...

如何在R中將pdf的所有頁面轉換為單頁pdf文檔

[英]How to convert all pages of a pdf into a single page pdf document in R

我曾嘗試探索 pdftools。它確實有一個 pdf_combine() 函數，可以將多個 pdf 拼接成一個。但是，它無助於將 pdf 文檔的多頁合並為一頁。 ...

在 R 中閱讀 PDF 組合

[英]Reading PDF portfolio in R

是否可以讀取/轉換 R 中的 PDF 投資組合？我通常使用pdftools ，但是，我得到一個錯誤：library(pdftools) #> Using poppler version 0.73.0 link <- c("http://www.accessdata.fda.gov/c ...

為“加載”和“保存”進程創建循環

[英]creating a loop for "load" and "save" processes

I have a data.frame (dim: 100 x 1) containing a list of url links, each url looks something like this: https:blah-blah-blah.com/item/123/index.do . 該 ...

用空單元格抓取 PDF 表

[英]Scraping PDF tables with empty Cells

我正在使用 R 從 PDF 中提取數據，到目前為止一切順利。我剛剛打開了一批新的 PDF，發現我必須弄清楚如何處理空單元格。我還沒有找到一種方法來做到這一點，而且我有數百頁需要通過 go。我已經包含了一些示例數據。我還沒有找到在此處附加 PDF 的方法，而且這些文件也沒有發布在 web 的任 ...