簡體 English 中英

瀏覽 pdf 文件以查找特定頁面並使用 python 從圖像中提取表格數據

[英]Navigate through a pdf file to find specific pages and extract tabular data from image with python

原文 2021-12-15 09:55:34 4 1 python/ python-3.x/ dataframe/ tabular/ image-extraction

我遇到了一項任務，該任務要求我從 pdf 文件中的圖像中提取表格數據，以通過 python 代碼整齊地格式化數據幀。 有幾個文件要處理，所有文件中的相關頁面可能有不同的頁碼，因此這個問題的步驟順序（我的假設）是：

導航到 pdf 的相關部分
提取表格數據的圖像
從圖像中提取數據，格式化並轉換為數據幀。

一些谷歌搜索導致我找到了 pdf 文本提取、表格提取等庫 - 僅限模塊化解決方案。

我將不勝感激在這方面的一些幫助。 我應該使用哪些軟件包？ 我的方法正確嗎？ 對於類似問題，我可以獲得任何有用的代碼片段的參考嗎？

所需表的頁面結構

1 個解決方案

這始於評論。 我相信答案是有效的，因為它絕不是對服務的認可。 我什至不使用它。 我知道 Azure 也使用 SO。

這是商業服務的東西。 您可以嘗試 Azure 表單識別器（與我無關）：

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer

以下是一些如何使用它的 python 示例：

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/how-to-guides/try-sdk-rest-api?pivots=programming-language-python

AWS 等效項是 Textract https://aws.amazon.com/textract

Google Cloud 版本稱為 Form Parser - 請參閱https://cloud.google.com/document-ai/docs/processors-list#processor_form-parser

當行數據分為兩個單獨的頁面時，如何正確地從 pdf 中提取表格數據？

[英]how to extract tabular data from pdf properly when a row data is divided in two separate pages?

提取 PDF 的特定頁面並使用 Python 保存

[英]Extract specific pages of PDF and save it with Python

如何從包含表格數據的圖像中提取數據？

[英]How to extract data from image that contains tabular data?

在python中從PDF中提取圖像

[英]Extract an image from a PDF in python

從 python 中的 txt 文件中提取特定數據

[英]extract specific data from txt file in python

從 Txt 文件中提取特定數據 python

[英]Extract Specific Data from Txt file python

如何使用python僅從PDF文件中提取特定文本

[英]How to extract only specific text from PDF file using python

使用 PDFminer 從發票 PDF 中提取特定數據值：Python

[英]Extract specific Data values from Invoices PDF using PDFminer : Python

從.pdf中提取特定數據並保存在Excel文件中

[英]Extract specific data from .pdf and save in Excel file

從表格數據中提取列

[英]Extract column from tabular data

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 當行數據分為兩個單獨的頁面時，如何正確地從 pdf 中提取表格數據？提取 PDF 的特定頁面並使用 Python 保存如何從包含表格數據的圖像中提取數據？在python中從PDF中提取圖像從 python 中的 txt 文件中提取特定數據從 Txt 文件中提取特定數據 python 如何使用python僅從PDF文件中提取特定文本使用 PDFminer 從發票 PDF 中提取特定數據值：Python 從.pdf中提取特定數據並保存在Excel文件中從表格數據中提取列

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM