PDFMiner从PDF提取文本而无需混合顺序

Question

我在PDF中有以下文字：

STUDENT ________JOHN______
DATE ______MM/DD/AAA______ (date)
COURSE ___________________ PROFESSOR ___________

当我使用PDFMiner提取文本时，得到以下信息：

STUDENT ____
DATE MM/DD/AAA
(date)
JOHN
COURSE 
___________________ 
PROFESSOR 
___________

如何使用PDFMiner（或其他Python库）获得正确的输出？

Answer 1

最好的方法是使用pdfminer HTMLConverter将PDF提取为HTML。 一个典型的命令将是：

pdf2txt.py -t html -o outputFilePath / outputFileName.txt YourPDFpath / PDFname.pdf

进一步的处理会使您陷入一些编码难题，因此最好将编码定义为utf-8或cp1252。

pdf2txt.py -t html -c cp1252 -o outputFilePath / outputFileName.txt YourPDFpath / PDFname.pdf