繁体   English   中英

从pdf文件创建.txt文件

[英]Creating .txt files from pdf files

现在,我正在用python编写一个程序,要求您打开某个.pdf文件,然后在.txt文件上打开control + A(选择全部),control C和Control V(复制并粘贴),然后运行该程序。

我想知道是否有什么方法可以跳过步骤并运行程序,而不必执行此步骤序列,而只需引用程序内部的pdf文件即可。

就像是:

##does the procedure above and saves it on a notes.txt file##
FILE_NAME = 'notes.pdf'
read_pdf(FILE_NAME,'notes.txt') 

使用slate模块,取决于pdfminer

要安装它:

pip install pdfminer==20131113
pip install https://codeload.github.com/timClicks/slate/zip/master

要使用它:

import slate

with open('example.pdf') as fp:
    doc = slate.PDF(fp)

print(len(doc))
print(doc[0])

4
This is a test.

笔记:

或者使用PyPDF2

要安装它:

pip install PyPDF2

要使用它:

import PyPDF2

pdf = PyPDF2.PdfFileReader(open('sample.pdf', "rb"))

print(pdf.getNumPages())
print(pdf.getPage(0).extractText())

1
This is a sample.

您可以使用多种方法和许多实用程序来自动执行此步骤。

Windows上有一个用于GUI自动化的Python模块: pywinauto ,但仅Windows。

您可以使用像PyPDF2这样的纯python库,该库具有extractText函数。 PDFMiner

poppler库也具有其python绑定,可以像PyPDF2一样用于提取文本。

您可以从python调用外部程序,例如Xpdf的pdftotext

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM