![](/img/trans.png)
[英]Merging PDFs using reportlab and PyPDF2 loses images and embedded fonts
[英]Extracting and merging PDFs via Pypdf2
我有点卡住了。 我正在尝试从工作目录中的所有 PDF 文件中合并和提取文本。 然后我想以 CSV 形式存储数据以对其进行额外的分析。 但是我不断收到PyPDF2.utils.PdfReadError: EOF marker not found
错误。 我已经检查了资源,但我仍然在挣扎。
import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader
merger = PdfFileMerger()
for filename in os.listdir():
with open(filename,"rb") as source:
tmp = PdfFileReader(source)
merger.append(tmp)
tmp.write('tmp.csv', 'wb')
tmp.close()
实际上,您的代码中存在一些小错误,您inside the loop
创建了tmp
变量inside the loop
但在outside for writing to csv
使用它outside for writing to csv
。 而且,据我所知,您不需要with open and then create a PdfFileReader object
进行合并。 尝试使用这种简单的方法来合并多个pdf-files
:
import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader
merger = PdfFileMerger()
for pdffile in os.listdir():
merger.append(pdffile)
merger.write('tmp.csv')
merger.close()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.