根据字符串将多页 pdf 拆分为单个 pdf 并使用该字符串 python

Question

我有一张单张发票 pdf 里面有多张发票，pdf 的组织方式是，某些页面有发票编号，发票详细信息继续到第二页或第三页。 我要做的是根据发票编号将 pdf 拆分为单独的 pdf 文件，例如总页数 = 10。

第 1 页：发票 1 接第 2 页第 3 页：发票 2 接第 4 页第 5 页：发票 3 接第 6 页第 7 页：发票 4 接第 8 页第 9 页：发票 5 接第 10 页

如果页面包含发票一词，我想拆分，然后将其与下一个发票词之前的页面拆分，对于我正在寻找的 output 是：发票 1.pdf（2 页第 1 到 2 页）发票 2.Z4370075BA49374201第 3 至 4 页）发票 3.pdf（2 页第 5 至 6 页）发票 4.pdf（2 页第 7 至 8 页）发票 5.Z437175BA4191210EE004E2D9 第 3 页

我在网上获得了以下代码，用于将 pdf 拆分为单独的文件，任何人都可以帮助扩展它以包含上述拆分逻辑吗？

from PyPDF2 import PdfFileWriter, PdfFileReader

inputpdf = PdfFileReader(open("invoices.pdf", "rb"))

for i in range(inputpdf.numPages):
    output = PdfFileWriter()
    output.addPage(inputpdf.getPage(i))
    with open("document-page%s.pdf" % i, "wb") as outputStream:
        output.write(outputStream)```

Answer 1

我必须得到一个应用程序才能做到这一点，它叫做 PDF Content Split SA

根据字符串将多页 pdf 拆分为单个 pdf 并使用该字符串 python

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-07-08 03:17:58

根据字符串将多页 pdf 拆分为单个 pdf 并使用该字符串 python

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-07-08 03:17:58

解决方案1
0 已采纳 2020-07-08 03:17:58