[英]Copying file contents to clipboard and pasting into a plain text file automatically in python
我试图用编写的这个小脚本来完成的工作是解析PDF文件中的数据。
但是,我似乎遇到了python问题,尤其是PyPDF2模块无法读取pdf文件中的文本。 打印出的数据都是模糊的,基本上是不可读的。 但是,当我打开要阅读的pdf文件时,我只需click drag and ctrl+c
即可复制内容,然后将其粘贴到纯txt文档中即可正常工作。 当我完成手动复制和粘贴的过程时,数据是可读的。
因此,我想做的是模仿该确切步骤,但是将其自动化,而不是让我浏览pdf文件中执行上述步骤的所有页面。
或者,如果有人对我可以做些什么来实现这一建议,我将不胜感激。 我曾尝试将pdf文件转换为docx和纯文本文件,但是文件内容的格式已完全重新安排
import PyPDF2
pdfFileObj = open('sjsuclassdata.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pageObj = pdfReader.getPage(4)
print(pageObj.extractText())
编辑本质上,我现在想做的就是简单地编写一个脚本,该脚本将执行以下操作。
1.)阅读pdf文件
2.)复制整个页面的内容(ctrl + a)
3.)将整个页面的内容粘贴到纯文本文件(ctrl + v)中
4.)阅读pdf文件直到文件结尾
我会尝试一下:
import slate
output_prefix = 'foobar'
file_ext = 'txt'
with open('example.pdf') as f:
doc = slate.PDF(f)
for page_number, page in enumerate(doc):
open('%s_%s.%s' % (output_suffix, page_number, file_ext), 'w+').write(doc[page_number])
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.