使用 Python 或其他方法從 PDF 中提取指向另一個 PDF 頁面的鏈接

Question

我有 5 個 PDF 文件，每個文件都有指向另一個 PDF 文件中不同頁面的鏈接。 這些文件都是大型 PDF 的目錄（每個約 1000 頁），這使得手動提取成為可能，但非常痛苦。 到目前為止，我已經嘗試在 Acrobat Pro 中打開該文件，我可以右鍵單擊每個鏈接並查看它指向的頁面，但我需要以某種方式提取所有鏈接。 我並不反對對鏈接進行大量的進一步解析，但我似乎無法以任何方式將它們拉出來。 我嘗試將 Acrobat Pro 中的 PDF 導出為 HTML 或 Word，但這兩種方法都沒有維護鏈接。

我不知所措，任何幫助都會很棒。 我很擅長使用 Python 或一系列其他語言

Answer 1

使用pyPdf尋找URI，

import pyPdf

f = open('TMR-Issue6.pdf','rb')

pdf = pyPdf.PdfFileReader(f)
pgs = pdf.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for pg in range(pgs):

    p = pdf.getPage(pg)
    o = p.getObject()

    if o.has_key(key):
        ann = o[key]
        for a in ann:
            u = a.getObject()
            if u[ank].has_key(uri):
                print u[ank][uri]

給，

http://www.augustsson.net/Darcs/Djinn/
http://plato.stanford.edu/entries/logic-intuitionistic/
http://citeseer.ist.psu.edu/ishihara98note.html

etc...

我找不到鏈接到另一個pdf的文件，但我懷疑URI字段應包含file:///myfiles形式的URI。

Answer 2

我剛剛為此制作了一個小型Python工具，可以從給定的PDF列出/下載所有引用的PDF： https : //www.metachris.com/pdfx/ （另請參見： https : //github.com/metachris/ pdfx ）

$ ./pdfx.py https://weakdh.org/imperfect-forward-secrecy.pdf -d ./
Reading url 'https://weakdh.org/imperfect-forward-secrecy.pdf'...
Saved pdf as './imperfect-forward-secrecy.pdf'
Document infos:
- CreationDate = D:20150821110623-04'00'
- Creator = LaTeX with hyperref package
- ModDate = D:20150821110805-04'00'
- PTEX.Fullbanner = This is pdfTeX, Version 3.1415926-2.5-1.40.14 (TeX Live 2013/Debian) kpathsea version 6.1.1
- Producer = pdfTeX-1.40.14
- Title = Imperfect Forward Secrecy: How Diffie-Hellman Fails in Practice
- Trapped = False
- Pages = 13

Analyzing text...
- URLs: 49
- URLs to PDFs: 17

JSON summary saved as './imperfect-forward-secrecy.pdf.infos.json'

Downloading 17 referenced pdfs...
Created directory './imperfect-forward-secrecy.pdf-referenced-pdfs'
Downloaded 'http://cr.yp.to/factorization/smoothparts-20040510.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/smoothparts-20040510.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35517.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35517.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35514.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35514.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35519.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35519.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35522.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35522.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35509.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35509.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35528.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35528.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35513.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35513.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35533.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35533.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35551.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35551.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35527.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35527.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35520.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35520.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35526.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35526.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35515.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35515.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35529.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35529.pdf'...
Downloaded 'http://cryptome.org/2013/08/spy-budget-fy13.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/spy-budget-fy13.pdf'...
Downloaded 'http://www.spiegel.de/media/media-35671.pdf' to './imperfect-forward-secrecy.pdf-referenced-pdfs/media-35671.pdf'...

該工具使用PyPDF2 （事實上的Python標准庫）讀取PDF內容，匹配所有url的正則表達式，並使用-d選項運行每個PDF（對於--download-pdfs ），啟動下載線程。。

Answer 3

如果您不能使用 Python，但有一種解壓縮 PDF 內部對象流的方法，例如qpdf ，您可以 grep 獲取 URI：

qpdf --qdf --object-streams=disable input.pdf - | grep -Poa '(?<=/URI \().*(?=\))'

使用 Python 或其他方法從 PDF 中提取指向另一個 PDF 頁面的鏈接

問題描述

3 個解決方案

解決方案1
5 2011-05-12 12:42:31

解決方案2
1 2015-10-16 15:02:37

解決方案3
0 2021-11-04 11:28:36

使用 Python 或其他方法從 PDF 中提取指向另一個 PDF 頁面的鏈接

問題描述

3 個解決方案

解決方案1 5 2011-05-12 12:42:31

解決方案2 1 2015-10-16 15:02:37

解決方案3 0 2021-11-04 11:28:36

解決方案1
5 2011-05-12 12:42:31

解決方案2
1 2015-10-16 15:02:37

解決方案3
0 2021-11-04 11:28:36