[英]scraping pdf files multiple pages from url
我想用 python 抓取这个 PDF 的信息。 我不知道从哪里开始,因为它根本没有组织。 我习惯于抓取 HTML。 我尝试将其转换为 HTML,但这并没有真正帮助。
您将如何尝试抓取此 PDF? 这是 PDF 的链接(任何都可以,它们都相似): https://portal.charitycommissioner.je/Public-Register/ https://www.gov.im/media/1371147/publicindex_latest-15121 -v2.pdf
谢谢你的帮助:D
它是有组织的 - 它在一个“表格”中 - pdfplumber很适合这个。
一旦您的设置与您的数据正确匹配,您就可以.extract_table()
import pdfplumber
import pandas as pd
pdf = pdfplumber.open('file.pdf')
page = pdf.pages[0]
table = page.extract_table(
dict(vertical_strategy="text", keep_blank_chars=True)
)
df = pd.DataFrame(table)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.