![](/img/trans.png)
[英]how to extract tabular data from pdf properly when a row data is divided in two separate pages?
[英]Navigate through a pdf file to find specific pages and extract tabular data from image with python
我遇到了一项任务,该任务要求我从 pdf 文件中的图像中提取表格数据,以通过 python 代码整齐地格式化数据帧。 有几个文件要处理,所有文件中的相关页面可能有不同的页码,因此这个问题的步骤顺序(我的假设)是:
一些谷歌搜索导致我找到了 pdf 文本提取、表格提取等库 - 仅限模块化解决方案。
我将不胜感激在这方面的一些帮助。 我应该使用哪些软件包? 我的方法正确吗? 对于类似问题,我可以获得任何有用的代码片段的参考吗?
这始于评论。 我相信答案是有效的,因为它绝不是对服务的认可。 我什至不使用它。 我知道 Azure 也使用 SO。
这是商业服务的东西。 您可以尝试 Azure 表单识别器(与我无关):
https://docs.microsoft.com/en-us/azure/applied-ai-services/form-recognizer
以下是一些如何使用它的 python 示例:
AWS 等效项是 Textract https://aws.amazon.com/textract
Google Cloud 版本称为 Form Parser - 请参阅https://cloud.google.com/document-ai/docs/processors-list#processor_form-parser
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.