繁体   English   中英

通过 Pypdf2 提取和合并 PDF

[英]Extracting and merging PDFs via Pypdf2

我有点卡住了。 我正在尝试从工作目录中的所有 PDF 文件中合并和提取文本。 然后我想以 CSV 形式存储数据以对其进行额外的分析。 但是我不断收到PyPDF2.utils.PdfReadError: EOF marker not found错误。 我已经检查了资源,但我仍然在挣扎。

import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader

merger = PdfFileMerger()
for filename in os.listdir():
    with open(filename,"rb") as source:
        tmp = PdfFileReader(source)
        merger.append(tmp)

tmp.write('tmp.csv', 'wb')
tmp.close()

实际上,您的代码中存在一些小错误,您inside the loop创建了tmp变量inside the loop但在outside for writing to csv使用它outside for writing to csv 而且,据我所知,您不需要with open and then create a PdfFileReader object进行合并。 尝试使用这种简单的方法来合并多个pdf-files

import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader

merger = PdfFileMerger()

for pdffile in os.listdir():
    merger.append(pdffile)

merger.write('tmp.csv')
merger.close()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM