簡體   English   中英

閱讀pdf電子書的內容並相應地拆分pdf文件

[英]Reading pdf ebook's contents and split pdf file accordingly

我有一些巨大的技術pdf電子書,我想以一種幫助我從每本書中找到和閱讀我想要的部分的方式拆分它們。 我在談論索引的pdf文件,內容(部分和章節)。 基於pdf的內容,我提出了以下分割方案:

1.閱讀書籍內容。 2.為整本書創建根文件夾3.為書的每個部分創建一個子文件夾4.每章將書分成一個pdf文件,並將pdfs(章節)放在相應的子文件夾(部分)中。

如何使用Java或Python pdf庫完成此操作?

您可以使用PyPDF2來讀取和拆分PDF文件。

以下是導出PDF頁面的方法:

import PyPDF2

def export_pdf_pages(input_pdf_path, page_first, page_last, output_pdf_path):
    with open(input_pdf_path, "rb") as input_stream:
        input_pdf = PyPDF2.PdfFileReader(input_stream)
        output = PyPDF2.PdfFileWriter()
        for index in xrange(page_first - 1, page_last):
            try:
                page = input_pdf.getPage(index)
            except IndexError:
                fmt = 'Missing page {page_num} in "{input_pdf_path}"'
                msg = fmt.format(page_num=index + 1, input_pdf_path=input_pdf_path)
                raise IndexError(msg)
            output.addPage(page)
        with open(output_pdf_path, "wb") as output_stream:
            output.write(output_stream)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM