繁体   English   中英

PyPDF2 是否可以在横向模式下处理 PDF?

[英]Does PyPDF2 work with PDFs in landscape mode?

我正在编写一个程序,该程序应该使用 PyPDF2 从 PDF 中提取文本,当我运行该程序时,它处理的是一个以纵向模式编写并打印出文本的文档。 但是第二个文档是横向编写的,当它通过程序运行时,它没有打印出任何文本。 下面是我的代码目前的样子。

text = ""
pdf = PdfFileReader('TEST.pdf', 'rb')
for i in range(pdf.getNumPages())
    text += pdf.getPage(i).extractText()
print(text)

我想知道的是,如果 PyPDF2 处于横向模式,基本上可以读取文档,或者在提取文本时它们的方向是否重要? 有关文档的更多详细信息,成功文档中使用的字体使用“Grotesque Sans Serif”字体(即 Helvetica)编写,而未成功文档使用“Slab Serifs”字体(即 Rockwell)编写。

以下是 PDF 的外观。 第一个是成功的文件,第二个是不成功的文件: 在此处输入图像描述 在此处输入图像描述

看来第二个文档不起作用的原因是因为第二个文档是 PDF 版本 1.4,而 PyPDF2 不适用于该版本。 与该程序一起使用的文档是 PDF 1.5 版。 对于除我之外遇到此问题的任何人,如果您的 PDF 是 1.4 或更早版本,我建议使用 OCR 而不是 PyPDF2。 如果是 1.5 或更高版本,PyPDF2 应该可以工作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM