簡體   English   中英

瀏覽 pdf 文件以查找特定頁面並使用 python 從圖像中提取表格數據

[英]Navigate through a pdf file to find specific pages and extract tabular data from image with python

我遇到了一項任務,該任務要求我從 pdf 文件中的圖像中提取表格數據,以通過 python 代碼整齊地格式化數據幀。 有幾個文件要處理,所有文件中的相關頁面可能有不同的頁碼,因此這個問題的步驟順序(我的假設)是:

  1. 導航到 pdf 的相關部分
  2. 提取表格數據的圖像
  3. 從圖像中提取數據,格式化並轉換為數據幀。

一些谷歌搜索導致我找到了 pdf 文本提取、表格提取等庫 - 僅限模塊化解決方案。

我將不勝感激在這方面的一些幫助。 我應該使用哪些軟件包? 我的方法正確嗎? 對於類似問題,我可以獲得任何有用的代碼片段的參考嗎?

所需表的頁面結構

這始於評論。 我相信答案是有效的,因為它絕不是對服務的認可。 我什至不使用它。 我知道 Azure 也使用 SO。

這是商業服務的東西。 您可以嘗試 Azure 表單識別器(與我無關):

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer

以下是一些如何使用它的 python 示例:

https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer/how-to-guides/try-sdk-rest-api?pivots=programming-language-python

AWS 等效項是 Textract https://aws.amazon.com/textract

Google Cloud 版本稱為 Form Parser - 請參閱https://cloud.google.com/document-ai/docs/processors-list#processor_form-parser

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM