簡體   English   中英

當使用 readtext 閱讀 pdf 文本時,有沒有辦法確保 readtext 尊重列?

[英]When reading in pdf text using readtext is there a way to ensure that readtext respects columns?

問題是我有一個橫向格式化的 PDF 文檔,其中包含三列文本,我試圖使用 readtext() 將其讀入 R。 當它讀入文本時,它不是按順序閱讀每一列,而是在同一行文本的列之間閱讀。

簡單地描述一下,如果每列的第一行只是 1-10 的一串數字,而第二行是 11-20 的字符串,那么 readtext() 將其讀為“1234567891012345678910”而不是“1234567891011121314.. 。“ 等等。

有沒有辦法指定 readtext() 在我的導入過程中跟隨列?

最好的,丹尼爾

(當前)答案是否定的。 readtext使用 pdftools 包來讀取 pdf,這無法識別單獨的列。 這與用於閱讀 pdf 的 poppler 有關。 另請參閱 github 上的問題 4 它有點像pdf_data但不容易檢索。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM