簡體   English   中英

從 PyPDF2 getOutlines() 解析頁碼

[英]Resolving page numbers from PyPDF2 getOutlines()

我正在使用 PyPDF 2 處理一些 PDF 文件。 我希望從包含它的文件中提取大綱/ToC 數據,主要是為了嘗試了解給定頁面對應於文檔的哪個部分。

根據文檔PdfFileReadergetOutlines方法應該返回Destination對象的嵌套列表。 然后, 根據 docs ,每個都應該有一個page (int) 屬性。

不幸的是,我嘗試過的文件並非如此。 相反,我得到了indirectObject s,它解析為PyPDF2.generic.DictionaryObject s。 我不知道如何獲得我期望的Destination對象,或者如何從我得到的indirectObject提取有意義的頁碼。

最終目標是,給定大綱的頁碼,能夠將該頁碼傳遞給getPage()然后調用extractText()

非常感謝任何指導。 謝謝!

PyPDF2.PdfFileReader有一個getDestinationPageNumber方法,它為您提供來自Destination對象的頁碼。

但是,PyPDF2 不再真正更新,並且 Python 3.7 上的輪廓迭代被破壞。 相反,您可能想嘗試pikepdf ,它們也有 大綱支持

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM