[英]Resolving page numbers from PyPDF2 getOutlines()
我正在使用 PyPDF 2 處理一些 PDF 文件。 我希望從包含它的文件中提取大綱/ToC 數據,主要是為了嘗試了解給定頁面對應於文檔的哪個部分。
根據文檔, PdfFileReader
的getOutlines
方法應該返回Destination
對象的嵌套列表。 然后, 根據 docs ,每個都應該有一個page
(int) 屬性。
不幸的是,我嘗試過的文件並非如此。 相反,我得到了indirectObject
s,它解析為PyPDF2.generic.DictionaryObject
s。 我不知道如何獲得我期望的Destination
對象,或者如何從我得到的indirectObject
提取有意義的頁碼。
最終目標是,給定大綱的頁碼,能夠將該頁碼傳遞給getPage()
然后調用extractText()
。
非常感謝任何指導。 謝謝!
PyPDF2.PdfFileReader
有一個getDestinationPageNumber
方法,它為您提供來自Destination
對象的頁碼。
但是,PyPDF2 不再真正更新,並且 Python 3.7 上的輪廓迭代被破壞。 相反,您可能想嘗試pikepdf
,它們也有 大綱支持。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.