簡體   English   中英

從 url 抓取 pdf 文件的多個頁面

[英]scraping pdf files multiple pages from url

我想用 python 抓取這個 PDF 的信息。 我不知道從哪里開始,因為它根本沒有組織。 我習慣於抓取 HTML。 我嘗試將其轉換為 HTML,但這並沒有真正幫助。

您將如何嘗試抓取此 PDF? 這是 PDF 的鏈接(任何都可以,它們都相似): https://portal.charitycommissioner.je/Public-Register/ https://www.gov.im/media/1371147/publicindex_latest-15121 -v2.pdf

謝謝你的幫助:D

它是有組織的 - 它在一個“表格”中 - pdfplumber很適合這個。

pdf管道工示例

一旦您的設置與您的數據正確匹配,您就可以.extract_table()

import pdfplumber
import pandas as pd

pdf = pdfplumber.open('file.pdf')

page = pdf.pages[0]
table = page.extract_table(
    dict(vertical_strategy="text", keep_blank_chars=True)
)

df = pd.DataFrame(table)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM