![](/img/trans.png)
[英]How to use pdfminer to extract text from PDF files stored in S3 bucket without downloading it locally?
[英]PDFMiner extract text from PDF without mixing the order
我在PDF中有以下文字:
STUDENT ________JOHN______
DATE ______MM/DD/AAA______ (date)
COURSE ___________________ PROFESSOR ___________
当我使用PDFMiner提取文本时,得到以下信息:
STUDENT ____
DATE MM/DD/AAA
(date)
JOHN
COURSE
___________________
PROFESSOR
___________
如何使用PDFMiner(或其他Python库)获得正确的输出?
最好的方法是使用pdfminer HTMLConverter将PDF提取为HTML。 一个典型的命令将是:
pdf2txt.py -t html -o outputFilePath / outputFileName.txt YourPDFpath / PDFname.pdf
进一步的处理会使您陷入一些编码难题,因此最好将编码定义为utf-8或cp1252。
pdf2txt.py -t html -c cp1252 -o outputFilePath / outputFileName.txt YourPDFpath / PDFname.pdf
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.