簡體 English 中英

當使用 readtext 閱讀 pdf 文本時，有沒有辦法確保 readtext 尊重列？

[英]When reading in pdf text using readtext is there a way to ensure that readtext respects columns?

原文 2019-12-14 14:44:28 9 1 r/ quanteda/ read-text

問題是我有一個橫向格式化的 PDF 文檔，其中包含三列文本，我試圖使用 readtext() 將其讀入 R。 當它讀入文本時，它不是按順序閱讀每一列，而是在同一行文本的列之間閱讀。

簡單地描述一下，如果每列的第一行只是 1-10 的一串數字，而第二行是 11-20 的字符串，那么 readtext() 將其讀為“1234567891012345678910”而不是“1234567891011121314.. 。“ 等等。

有沒有辦法指定 readtext() 在我的導入過程中跟隨列？

最好的，丹尼爾

1 個解決方案

（當前）答案是否定的。 readtext使用 pdftools 包來讀取 pdf，這無法識別單獨的列。 這與用於閱讀 pdf 的 poppler 有關。 另請參閱 github 上的問題 4 。 它有點像pdf_data但不容易檢索。

無法使用 R 中的 readtext Package 中的 readtext() 替換從 PDF 文件中提取的文本中的“\r\n-”

[英]Unable to Replace “\r\n-” in Text Extracted from PDF File Using readtext() from readtext Package in R

使用 readtext 從 XML 中提取文本

[英]Using readtext to extract text from XML

使用readtext進行編碼

[英]Encoding with readtext

使用 readtext 和 quanteda 制作語料庫的正確方法是什么？

[英]What is the right way to make corpus with readtext and quanteda?

R：在閱讀文本中使用 quanteda 語料庫時遇到問題

[英]R: having trouble using quanteda corpus with readtext

在readtext（）中使用通配符

[英]Use of wildcards with readtext()

忽略 readtext r 中的錯誤

[英]Ignore errors in readtext r

如何使用 readtext 將多個 JSON 文件加載到 quanteda 語料庫中？

[英]How to load multiple JSON files into a quanteda corpus using readtext?

無法讀取R中具有readtext的.txt壓縮文件

[英]Unable to read a .txt zipped file with readtext in R

在 R 工作室中安裝 package 讀取文本時出錯

[英]Error installing package readtext in R studio

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 無法使用 R 中的 readtext Package 中的 readtext() 替換從 PDF 文件中提取的文本中的“\r\n-” 使用 readtext 從 XML 中提取文本使用readtext進行編碼使用 readtext 和 quanteda 制作語料庫的正確方法是什么？ R：在閱讀文本中使用 quanteda 語料庫時遇到問題在readtext（）中使用通配符忽略 readtext r 中的錯誤如何使用 readtext 將多個 JSON 文件加載到 quanteda 語料庫中？無法讀取R中具有readtext的.txt壓縮文件在 R 工作室中安裝 package 讀取文本時出錯

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM