繁体   English   中英

从 PDF 文档中提取文本和标签

[英]extract text and labels from PDF document

我正在尝试检测和提取使用 python 保存为 PDF 的 2D 技术图纸的“标签”和“尺寸”。 我遇到了一个名为“pytesseract”的 Python 库,它具有光学字符识别功能。 我在我的图像上尝试了演示,但它无法检测到大部分标签/尺寸。 请建议是否有其他方法可以做到这一点。 谢谢**。

** 附件是我尝试检测的 2D 技术图纸样本

@D 技术图纸

** 我想要实现的是能够获得图像上每个维度(160,120,10 4x45 等)的坐标,并提取它们。

大约 16 个月前,我们问自己同样的问题。 如果你想自己实现它,我建议采用以下过程:

  1. 从工作表中提取画布
  2. 分离切口
  3. 检测每个切割上的测量区域
  4. 检测测量区域的各个属性以了解测量开始和结束的位置。 在您的特定示例中,这相对容易。
  5. 通过 OCR 运行检测到的度量标签
  6. 将标签与度量相关联
  7. 验证您的结果

或者,您也可以通过我们的 API 运行它并以 JSON 形式获取结果。

这是结果的快速可视化:绘图读取(GT 代表一般公差)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM