繁体 English 中英

从 PDF 文档中提取文本和标签

[英]extract text and labels from PDF document

原文 2020-03-07 08:19:41 2 1 python/ opencv/ image-processing/ ocr/ text-recognition

我正在尝试检测和提取使用 python 保存为 PDF 的 2D 技术图纸的“标签”和“尺寸”。 我遇到了一个名为“pytesseract”的 Python 库，它具有光学字符识别功能。 我在我的图像上尝试了演示，但它无法检测到大部分标签/尺寸。 请建议是否有其他方法可以做到这一点。 谢谢**。

** 附件是我尝试检测的 2D 技术图纸样本

** 我想要实现的是能够获得图像上每个维度（160,120,10 4x45 等）的坐标，并提取它们。

1 个解决方案

大约 16 个月前，我们问自己同样的问题。 如果你想自己实现它，我建议采用以下过程：

从工作表中提取画布
分离切口
检测每个切割上的测量区域
检测测量区域的各个属性以了解测量开始和结束的位置。 在您的特定示例中，这相对容易。
通过 OCR 运行检测到的度量标签
将标签与度量相关联
验证您的结果

或者，您也可以通过我们的 API 运行它并以 JSON 形式获取结果。

这是结果的快速可视化：绘图读取（GT 代表一般公差）

从PDF中提取文本

[英]Extract text from PDF

使用正则表达式从PDF中提取文本

[英]Extract text from a PDF with regex

从 MediaBox 中提取文本 - PDF

[英]Extract Text from MediaBox - PDF

从 pdf 提取文本到文件

[英]Extract text from pdf to file

从pdf中提取带下划线的文本

[英]Extract underlined text from pdf

Python 代码从 PDF 文档中提取 txt

[英]Python code to extract txt from PDF document

从网页中提取嵌入的 pdf 文档

[英]Extract embedded pdf document from a webpage

从PDF文档中仅提取粗体文本

[英]Extract only bold text from PDF documents

从python中的pdf文件对象中提取文本

[英]extract text from pdf file object in python

如何从这个压缩的 PDF/A 中提取文本？

[英]How extract text from this compressed PDF/A?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从PDF中提取文本使用正则表达式从PDF中提取文本从 MediaBox 中提取文本 - PDF 从 pdf 提取文本到文件从pdf中提取带下划线的文本 Python 代码从 PDF 文档中提取 txt 从网页中提取嵌入的 pdf 文档从PDF文档中仅提取粗体文本从python中的pdf文件对象中提取文本如何从这个压缩的 PDF/A 中提取文本？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM