cost 408 ms
r pdftools:將多個頁面合並為一個頁面

[英]r pdftools: Combine multiple pages into a single page

pdf_combine r package 中的pdf_combine function可用於合並不同的 pdf 文檔。 想知道是否有一種方法可以將這四個頁面組合成一個頁面,例如每張打印多頁。 ...

2022-12-02 18:48:08   1   105    r / pdf / pdftools  
使用 Pdftools 從 PDF 讀取帶有部分填充列的表

[英]Read table from PDF with partially filled column using Pdftools

我在 R 中寫了一個 function,使用 pdftools 從 pdf 中讀取一個表。function 完成了工作,但不幸的是,該表包含一個注釋列,僅部分填充。 結果,結果表中的數據在包含注釋的行中移動了一列。 這是桌子。 這是代碼: 和 output。 我怎樣才能最好地避免這個問題? 提前謝 ...

2022-11-19 13:10:47   1   38    r / pdftools  
僅加載許多 pdf 的名稱並制作數據框

[英]Load only the names of many pdfs and make data frame

我需要獲取設置許多 pdf 文件(36000 個文件)的名稱。 但只有名稱不會加載所有 object。 最后制作一個這樣的數據框: 21個示例文件的鏈接: https://drive.google.com/drive/folders/1zUKyVJFICq4Q69zs48wqFNq1UPDvCg ...

在R中提取多個pdf的起始行和結束行之間的文本

[英]Extract text between start line and end line for multiple pdfs in R

我想問一個與此相關的問題: r - 如何在兩個符號之間提取多行文本? 但我沒有足夠的聲譽發表評論,所以它必須是一個全新的問題。 我已經使用以下代碼上傳了文件: 然后是該問題的答案的代碼: 但我的開始略有不同(即第 1.234 號法令等),結束是相同的,一個簽名。 所以我不想要每個pdf中 ...

將多列分成更多列

[英]separating multiple columns into more columns

我抓取的 pdf 中的文本混雜在不同的元素中。 更不用說,它在轉換為數據框時刪除了數據。 真的很難說文本應該在哪里拆分,因為我在下面的代碼中似乎是正確的。 如何拆分文本使其看起來像原始表格? 它看起來像什么 它應該是什么樣子 ...

在R中每2頁將PDF文件拆分為多個文件

[英]Split PDF files in multiples files every 2 pages in R

我有一個 300 頁的 PDF 文檔。 我需要將此文件拆分為 150 個文件,每個文件包含 2 頁。 例如,第一個文檔將包含原始文件的第 1 頁和第 2 頁、第 2 個文檔、第 3 頁和第 4 頁等等。 也許我可以使用“pdftools”包,但我不知道如何。 ...

2022-05-18 12:34:50   2   102    r / pdf / pdftools  
刮兩列PDF

[英]Scraping two-column PDF

我嘗試為一個項目抓取數百個 PDF 的文本。 PDF 有標題頁、頁眉、頁腳和兩列。 我嘗試了pdftools和tabulizer包。 但是,兩者都有其優點和缺點: pdftools 中的pdf_text() function 可以正確讀取 PDF,只有一些可以手動解決的編碼問題,但它沒有考慮到 ...

從多個 PDF 文件中提取文本到結構化數據表

[英]Extract text from multiple PDF-files to a structured data table

我是這個平台的新手,希望有人可以幫助我。 我已經使用 pdftools 庫將一些 pdf 文件導入到 Rstudio 中。 現在我想制作這個文本的結構化列。 我似乎無法使結構正確。 這是我導入的添加的一個文件的示例。 我想在數據表中制作黃色陰影線。 這是我最終想要的結果。 現在我已經輸入了下面的 ...

R:從 PDF 中提取日期和數字

[英]R: extract dates and numbers from PDF

我真的很難從 NTSB 的數千個 PDF 文件中提取正確的信息(具體的一些日期和數字); 這些 PDF 不需要進行 OCRed,每個報告的長度和布局信息幾乎相同。 我需要提取事故發生的日期和時間(第一頁)以及其他一些信息,例如飛行員的年齡或飛行經驗。 我嘗試過的內容適用於幾個文件,但不適用於每個文件 ...

從 R 中的換行文本創建表

[英]Create table from wrapped text in R

編輯: 從基於名為 a 的變量的文本中,我想獲得一個表格,其中將展開描述單元格。 我想要的結果: ...

R 查找列表元素以從 pdf 中提取表

[英]R Find element of the list to extract table from pdf

我正在嘗試使用 pdftools package 從 pdf 中提取數據表。 我的源文件在這里: https://hypo.org/app/uploads/sites/2/2021/11/HYPOSTAT-2021_vdef.pdf 。 說,我想從第 170 頁的表 20 中提取數據(名義房價的變化 ...

2021-11-26 13:28:04   2   40    r / pdftools  
如何使用 R 更改 tesseract 的頁面分割方法 (PSM)?

[英]How to change tesseract's Page Segmentation Method (PSM) using R?

我想使用 tesseract 將掃描的 PDF 文檔讀入 R。 一般來說,這已經很好地工作了,但是當文檔具有表結構時我會遇到問題。 經過一段時間的研究,我發現有一個參數可以設置頁面分割方法(PSM)。 實際上,默認值是為書頁設計的,因此更改此參數應該會提高性能。 https://tesserac ...

我需要使用 RSelenium 來下載這些 PDF 嗎?

[英]Do I need to use RSelenium to download these PDFs?

我正在嘗試通過此頁面將 rvest 和 pdftools 用於 go 並下載 PDF。 我在使用 CSS 選擇器執行此操作時遇到問題,想知道這是否需要網絡驅動程序? 此外,在 R 中使用網絡驅動程序是否足夠容易 - 作為 R 用戶的初學者? ...

將掃描的 PDF 轉換為可搜索的 PDF(在 R 中)

[英]Convert scanned PDF to searcheable PDF (in R)

我正在嘗試使用tesseract和pdftools包將一系列掃描的 PDF 轉換為可搜索的 PDF 。 我已經完成了兩個步驟。 現在我需要寫回一個可搜索的 pdf。 讀取掃描 PDF 運行 OCR 寫回可搜索的 PDF 或者,我可以在 R 中為 Windows 調用另一個 package 或命令行 ...

我有兩套來自不同文件夾的 pdf,我基於相同的名稱加入了一個,output 在第一個 pdf 組的同一文件夾中

[英]I have two sets of pdf from different folders that i went to join as one based on the same name and output in the same folder of first pdf group

我有兩個文件夾目錄 文件夾 1 包含文件 文件夾 2 包含文件 如果文件夾 1 和 2 中的 pdf 共享前 6 個數字,那么我想加入它們並在directory1 1 中創建一個名為 ...

2021-08-20 21:50:19   1   103    r / pdf / pdftools  
如何系統地從教科書中提取數據

[英]How to systematically extract data from a textbook

{edited} 大家好! 我正在嘗試從教科書 (pdf) 中系統地提取數據。 由於此任務不容易轉化為可重現的示例,因此我在此處提供了本書中的 2 頁作為示例。 這兩頁包含物種學名列表(屬種)和一系列 2 字符代碼。 我想從提供的 2 頁示例中提取所有物種的學名及其代碼。 這是我想要提取的示例 ...

如何在R中將pdf的所有頁面轉換為單頁pdf文檔

[英]How to convert all pages of a pdf into a single page pdf document in R

我曾嘗試探索 pdftools。 它確實有一個 pdf_combine() 函數,可以將多個 pdf 拼接成一個。 但是,它無助於將 pdf 文檔的多頁合並為一頁。 ...

在 R 中閱讀 PDF 組合

[英]Reading PDF portfolio in R

是否可以讀取/轉換 R 中的 PDF 投資組合? 我通常使用pdftools ,但是,我得到一個錯誤:library(pdftools) #> Using poppler version 0.73.0 link <- c("http://www.accessdata.fda.gov/c ...

用空單元格抓取 PDF 表

[英]Scraping PDF tables with empty Cells

我正在使用 R 從 PDF 中提取數據,到目前為止一切順利。 我剛剛打開了一批新的 PDF,發現我必須弄清楚如何處理空單元格。 我還沒有找到一種方法來做到這一點,而且我有數百頁需要通過 go。 我已經包含了一些示例數據。 我還沒有找到在此處附加 PDF 的方法,而且這些文件也沒有發布在 web 的任 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM