簡體 English 中英

從 PyPDF2 getOutlines() 解析頁碼

[英]Resolving page numbers from PyPDF2 getOutlines()

原文 2019-09-12 14:37:21 5 1 python/ pdf/ pypdf2

我正在使用 PyPDF 2 處理一些 PDF 文件。 我希望從包含它的文件中提取大綱/ToC 數據，主要是為了嘗試了解給定頁面對應於文檔的哪個部分。

根據文檔， PdfFileReader的getOutlines方法應該返回Destination對象的嵌套列表。 然后，根據 docs ，每個都應該有一個page (int) 屬性。

不幸的是，我嘗試過的文件並非如此。 相反，我得到了indirectObject s，它解析為PyPDF2.generic.DictionaryObject s。 我不知道如何獲得我期望的Destination對象，或者如何從我得到的indirectObject提取有意義的頁碼。

最終目標是，給定大綱的頁碼，能夠將該頁碼傳遞給getPage()然后調用extractText() 。

非常感謝任何指導。 謝謝！

1 個解決方案

PyPDF2.PdfFileReader有一個getDestinationPageNumber方法，它為您提供來自Destination對象的頁碼。

但是，PyPDF2 不再真正更新，並且 Python 3.7 上的輪廓迭代被破壞。 相反，您可能想嘗試pikepdf ，它們也有大綱支持。

PyPDF2從第二頁附加PDF

[英]PyPDF2 append a PDF from the 2nd page

如何在pyPDF2中旋轉頁面？

[英]How can I rotate a page in pyPDF2?

使用 pyPDF2 和 BytesIO 將 PDF 頁面轉換為圖像

[英]Convert PDF page to image with pyPDF2 and BytesIO

PyPDF2 writer 函數創建空白頁

[英]PyPDF2 writer function creates blank page

使用 PyPDF2 添加書簽的頁碼

[英]Page number of added bookmarks with PyPDF2

僅選擇 PDF pypdf2 的第一頁

[英]Select only first page of PDF pypdf2

在pypdf2中使用PdfFileMerger（）之后的頁數

[英]Page count after using PdfFileMerger() in pypdf2

文件列表中的PyPDF2合並問題

[英]PyPDF2 merging issue from file list

使用 PyPDF2 從 pdf 中提取文本

[英]Issue extracting text from pdf with PyPDF2

PyPDF2：從壓縮文件中讀取 pdf

[英]PyPDF2: Reading a pdf from a zipfile

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 PyPDF2從第二頁附加PDF 如何在pyPDF2中旋轉頁面？使用 pyPDF2 和 BytesIO 將 PDF 頁面轉換為圖像 PyPDF2 writer 函數創建空白頁使用 PyPDF2 添加書簽的頁碼僅選擇 PDF pypdf2 的第一頁在pypdf2中使用PdfFileMerger（）之后的頁數文件列表中的PyPDF2合並問題使用 PyPDF2 從 pdf 中提取文本 PyPDF2：從壓縮文件中讀取 pdf

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM