繁体 English 中英

浏览 pdf 文件以查找特定页面并使用 python 从图像中提取表格数据

[英]Navigate through a pdf file to find specific pages and extract tabular data from image with python

原文 2021-12-15 09:55:34 0 1 python/ python-3.x/ dataframe/ tabular/ image-extraction

我遇到了一项任务，该任务要求我从 pdf 文件中的图像中提取表格数据，以通过 python 代码整齐地格式化数据帧。 有几个文件要处理，所有文件中的相关页面可能有不同的页码，因此这个问题的步骤顺序（我的假设）是：

导航到 pdf 的相关部分
提取表格数据的图像
从图像中提取数据，格式化并转换为数据帧。

一些谷歌搜索导致我找到了 pdf 文本提取、表格提取等库 - 仅限模块化解决方案。

我将不胜感激在这方面的一些帮助。 我应该使用哪些软件包？ 我的方法正确吗？ 对于类似问题，我可以获得任何有用的代码片段的参考吗？

所需表的页面结构

1 个解决方案

这始于评论。 我相信答案是有效的，因为它绝不是对服务的认可。 我什至不使用它。 我知道 Azure 也使用 SO。

这是商业服务的东西。 您可以尝试 Azure 表单识别器（与我无关）：

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer

以下是一些如何使用它的 python 示例：

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/how-to-guides/try-sdk-rest-api?pivots=programming-language-python

AWS 等效项是 Textract https://aws.amazon.com/textract

Google Cloud 版本称为 Form Parser - 请参阅https://cloud.google.com/document-ai/docs/processors-list#processor_form-parser

当行数据分为两个单独的页面时，如何正确地从 pdf 中提取表格数据？

[英]how to extract tabular data from pdf properly when a row data is divided in two separate pages?

提取 PDF 的特定页面并使用 Python 保存

[英]Extract specific pages of PDF and save it with Python

如何从包含表格数据的图像中提取数据？

[英]How to extract data from image that contains tabular data?

在python中从PDF中提取图像

[英]Extract an image from a PDF in python

从 python 中的 txt 文件中提取特定数据

[英]extract specific data from txt file in python

从 Txt 文件中提取特定数据 python

[英]Extract Specific Data from Txt file python

如何使用python仅从PDF文件中提取特定文本

[英]How to extract only specific text from PDF file using python

使用 PDFminer 从发票 PDF 中提取特定数据值：Python

[英]Extract specific Data values from Invoices PDF using PDFminer : Python

从.pdf中提取特定数据并保存在Excel文件中

[英]Extract specific data from .pdf and save in Excel file

从表格数据中提取列

[英]Extract column from tabular data

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 当行数据分为两个单独的页面时，如何正确地从 pdf 中提取表格数据？提取 PDF 的特定页面并使用 Python 保存如何从包含表格数据的图像中提取数据？在python中从PDF中提取图像从 python 中的 txt 文件中提取特定数据从 Txt 文件中提取特定数据 python 如何使用python仅从PDF文件中提取特定文本使用 PDFminer 从发票 PDF 中提取特定数据值：Python 从.pdf中提取特定数据并保存在Excel文件中从表格数据中提取列

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM