[英]extract text and labels from PDF document
我正在尝试检测和提取使用 python 保存为 PDF 的 2D 技术图纸的“标签”和“尺寸”。 我遇到了一个名为“pytesseract”的 Python 库,它具有光学字符识别功能。 我在我的图像上尝试了演示,但它无法检测到大部分标签/尺寸。 请建议是否有其他方法可以做到这一点。 谢谢**。
** 附件是我尝试检测的 2D 技术图纸样本
** 我想要实现的是能够获得图像上每个维度(160,120,10 4x45 等)的坐标,并提取它们。
大约 16 个月前,我们问自己同样的问题。 如果你想自己实现它,我建议采用以下过程:
或者,您也可以通过我们的 API 运行它并以 JSON 形式获取结果。
这是结果的快速可视化:绘图读取(GT 代表一般公差)
[英]Extract text from PDF
[英]Extract text from a PDF with regex
[英]Extract Text from MediaBox - PDF
[英]Extract text from pdf to file
[英]Extract underlined text from pdf
[英]Python code to extract txt from PDF document
[英]Extract embedded pdf document from a webpage
[英]Extract only bold text from PDF documents
[英]extract text from pdf file object in python
[英]How extract text from this compressed PDF/A?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.