繁体 English 中英

从 url 抓取 pdf 文件的多个页面

[英]scraping pdf files multiple pages from url

原文 2022-02-15 12:13:09 3 1 python/ pandas

我想用 python 抓取这个 PDF 的信息。 我不知道从哪里开始，因为它根本没有组织。 我习惯于抓取 HTML。 我尝试将其转换为 HTML，但这并没有真正帮助。

您将如何尝试抓取此 PDF？ 这是 PDF 的链接（任何都可以，它们都相似）： https://portal.charitycommissioner.je/Public-Register/ https://www.gov.im/media/1371147/publicindex_latest-15121 -v2.pdf

谢谢你的帮助：D

1 个解决方案

它是有组织的 - 它在一个“表格”中 - pdfplumber很适合这个。

一旦您的设置与您的数据正确匹配，您就可以.extract_table()

import pdfplumber
import pandas as pd

pdf = pdfplumber.open('file.pdf')

page = pdf.pages[0]
table = page.extract_table(
    dict(vertical_strategy="text", keep_blank_chars=True)
)

df = pd.DataFrame(table)

Python从URL抓取pdf

[英]Python scraping pdf from URL

将多个 pdf 文件中的特定页面写入新的 pdf 文件

[英]Write specific pages from multiple pdf files to a new pdf file

从多个页面抓取评论

[英]scraping reviews from multiple pages

使用 BeautifulSoup 使用不变的 URL 抓取多个页面

[英]Scraping multiple pages with an unchanging URL using BeautifulSoup

抓取：从网址下载文件

[英]scraping: download files from url

具有多个页面但来自单个 url 的刮表

[英]Scraping Table with mulitple pages but from single url

从多个URL刮取数据

[英]Scraping data from multiple URL

Python - 从 URL 中抓取 PDF 文件

[英]Python - Scraping a PDF file from a URL

在Python中从多个网页刮取文本

[英]Scraping text from multiple web pages in Python

Web 使用 for 循环从多个页面中抓取

[英]Web scraping from multiple pages with for loop

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Python从URL抓取pdf 将多个 pdf 文件中的特定页面写入新的 pdf 文件从多个页面抓取评论使用 BeautifulSoup 使用不变的 URL 抓取多个页面抓取：从网址下载文件具有多个页面但来自单个 url 的刮表从多个URL刮取数据 Python - 从 URL 中抓取 PDF 文件在Python中从多个网页刮取文本 Web 使用 for 循环从多个页面中抓取

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM