通过 Pypdf2 提取和合并 PDF

Question

我有点卡住了。 我正在尝试从工作目录中的所有 PDF 文件中合并和提取文本。 然后我想以 CSV 形式存储数据以对其进行额外的分析。 但是我不断收到PyPDF2.utils.PdfReadError: EOF marker not found错误。 我已经检查了资源，但我仍然在挣扎。

import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader

merger = PdfFileMerger()
for filename in os.listdir():
    with open(filename,"rb") as source:
        tmp = PdfFileReader(source)
        merger.append(tmp)

tmp.write('tmp.csv', 'wb')
tmp.close()

Answer 1

实际上，您的代码中存在一些小错误，您inside the loop创建了tmp变量inside the loop但在outside for writing to csv使用它outside for writing to csv 。 而且，据我所知，您不需要with open and then create a PdfFileReader object进行合并。 尝试使用这种简单的方法来合并多个pdf-files ：

import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader

merger = PdfFileMerger()

for pdffile in os.listdir():
    merger.append(pdffile)

merger.write('tmp.csv')
merger.close()

通过 Pypdf2 提取和合并 PDF

问题描述

1 个解决方案

解决方案1
0 2020-09-17 19:39:49

通过 Pypdf2 提取和合并 PDF

问题描述

1 个解决方案

解决方案1 0 2020-09-17 19:39:49

解决方案1
0 2020-09-17 19:39:49