使用Python識別書簽

Question

我正在研究PyPDF2，以便從pdf閱讀書簽。

任何人都可以向我指出正確的方向，即如何從pdf讀取書簽，然后基於pdf拆分。 我敢肯定，一旦我知道如何識別書簽，我就能弄清楚如何拆分。

謝謝

Answer 1

我花了相當長的時間才弄清楚這一點，所以我在這里回答，因為這可能對其他人有所幫助。

大綱包含目標的嵌套列表（ Destination Class的定義）

您可以使用以下方法獲取pdf大綱：

from PyPDF2 import PdfFileReader

reader = PdfFileReader(pdf)
reader.outlines

對於每個帶有子標題的標題，父標題位於“目標”對象中，后跟子標題列表作為“目標”對象列表。

parent_destination
[child_destination1, child_destination2, ......]

如果沒有子標題，則后面跟一個同級目的地，而不是列表。

destination1
destination2

每個目的地包含

可用於拆分pdf。

希望這可以幫助。

Answer 2

看起來PyPDF2具有您需要的功能。 您可能會發現您需要這篇文章