繁体   English   中英

从 url 抓取 pdf 文件的多个页面

[英]scraping pdf files multiple pages from url

我想用 python 抓取这个 PDF 的信息。 我不知道从哪里开始,因为它根本没有组织。 我习惯于抓取 HTML。 我尝试将其转换为 HTML,但这并没有真正帮助。

您将如何尝试抓取此 PDF? 这是 PDF 的链接(任何都可以,它们都相似): https://portal.charitycommissioner.je/Public-Register/ https://www.gov.im/media/1371147/publicindex_latest-15121 -v2.pdf

谢谢你的帮助:D

它是有组织的 - 它在一个“表格”中 - pdfplumber很适合这个。

pdf管道工示例

一旦您的设置与您的数据正确匹配,您就可以.extract_table()

import pdfplumber
import pandas as pd

pdf = pdfplumber.open('file.pdf')

page = pdf.pages[0]
table = page.extract_table(
    dict(vertical_strategy="text", keep_blank_chars=True)
)

df = pd.DataFrame(table)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM