PyPDF2 是否可以在横向模式下处理 PDF？

Question

我正在编写一个程序，该程序应该使用 PyPDF2 从 PDF 中提取文本，当我运行该程序时，它处理的是一个以纵向模式编写并打印出文本的文档。 但是第二个文档是横向编写的，当它通过程序运行时，它没有打印出任何文本。 下面是我的代码目前的样子。

text = ""
pdf = PdfFileReader('TEST.pdf', 'rb')
for i in range(pdf.getNumPages())
    text += pdf.getPage(i).extractText()
print(text)

我想知道的是，如果 PyPDF2 处于横向模式，基本上可以读取文档，或者在提取文本时它们的方向是否重要？ 有关文档的更多详细信息，成功文档中使用的字体使用“Grotesque Sans Serif”字体（即 Helvetica）编写，而未成功文档使用“Slab Serifs”字体（即 Rockwell）编写。

以下是 PDF 的外观。 第一个是成功的文件，第二个是不成功的文件：

Answer 1

看来第二个文档不起作用的原因是因为第二个文档是 PDF 版本 1.4，而 PyPDF2 不适用于该版本。 与该程序一起使用的文档是 PDF 1.5 版。 对于除我之外遇到此问题的任何人，如果您的 PDF 是 1.4 或更早版本，我建议使用 OCR 而不是 PyPDF2。 如果是 1.5 或更高版本，PyPDF2 应该可以工作。

PyPDF2 是否可以在横向模式下处理 PDF？

问题描述

1 个解决方案

解决方案1
0 2022-09-06 16:14:21

PyPDF2 是否可以在横向模式下处理 PDF？

问题描述

1 个解决方案

解决方案1 0 2022-09-06 16:14:21

解决方案1
0 2022-09-06 16:14:21