繁体 English 中英

当行数据分为两个单独的页面时，如何正确地从 pdf 中提取表格数据？

[英]how to extract tabular data from pdf properly when a row data is divided in two separate pages?

原文 2020-12-19 16:04:02 5 1 python/ apache-tika/ pdftotext

我的任务是解析来自 pdf 的表格数据。 我在 python 中使用“tika”库，这很好，但有一个问题如下：

Pdf 具有表格格式的文本，行的一半在第二页结束，这将表的键和值数据划分为两个不同的页面，我认为 tika 将这一行视为两个单独的行。

在此处输入图像描述

output 将在不正确的键之间添加值。

例如：

str = "这是长键数据xxxxxxx值xxxxxxxxx剩余键数据"

有什么建议么？

1 个解决方案

您可以尝试使用 tesseract psm： Pytesseract OCR multiple config options

To set the different psm in tika (1 is default value) you can either: use the header: X-Tika-OCRPageSegMode: xx or use the tesseract config: https://tika.apache.org/1.24/api/org/ apache/tika/parser/ocr/TesseractOCRConfig.html#setPageSegMode-java.lang.String-

浏览 pdf 文件以查找特定页面并使用 python 从图像中提取表格数据

[英]Navigate through a pdf file to find specific pages and extract tabular data from image with python

如何从图像中提取表格数据？

[英]How to extract tabular data from images?

如何以表格格式从发票中提取数据

[英]How to extract data from invoices in tabular format

从表格数据中提取列

[英]Extract column from tabular data

从图像中提取表格数据

[英]Extract tabular data from images

如何从包含表格数据的图像中提取数据？

[英]How to extract data from image that contains tabular data?

如何使用python从pdf中提取单行表数据？

[英]How to extract a single row table data from a pdf using python?

如何格式化没有行标签的表格数据？

[英]How to format tabular data WITHOUT row labels?

如何从PDF文件中的表格中提取数据？

[英]How to extract data from a table in a PDF file?

如何在单独的行上显示列表中的数据

[英]How to display data from a list on a separate row

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 浏览 pdf 文件以查找特定页面并使用 python 从图像中提取表格数据如何从图像中提取表格数据？如何以表格格式从发票中提取数据从表格数据中提取列从图像中提取表格数据如何从包含表格数据的图像中提取数据？如何使用python从pdf中提取单行表数据？如何格式化没有行标签的表格数据？如何从PDF文件中的表格中提取数据？如何在单独的行上显示列表中的数据

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM