繁体   English   中英

如何使用opencv和python仅从图像中提取文本部分?

[英]How to extract the text part only from an image using opencv and python?

这是经过预处理的水表读数后的图像... 在此处输入图片说明

但是每当我使用tesseract来识别数字时,它都不会给出适当的输出。

因此,我只想将数字部分提取/分段出来作为感兴趣的区域,并将其保存在新的图像文件中,以便tesseract能够正确识别它...

我能够消除图像中的多余杂物,因此才使用此选项。

有什么办法吗?

未处理的图像是

在尝试从该图像中提取数字之前,请尝试减小图像大小,以使数字大小约为16像素高。 其次,将您的tesseract扫描字符白名单减少为“ 0123456789”,以避免扫描其他字符,例如“,。;'/”等(在此类图片上非常常见)。 减小图像尺寸应该有助于tesseract消除这种噪音,而不要扫描或混入数字。 这种方法肯定不能在这种图像上100%起作用,但是要清除这种噪声将是一个挑战,而毫无疑问的是其他方式。 也许您可以尝试向我们提供未经处理的图像,如果有的话,让我们看看有什么可能。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM