繁体   English   中英

改善tesseract结果(pytesseract)

[英]Improve tesseract results (pytesseract)

我一直在从类似TMS的服务器下载图块,其中显示了带有地理数据的“ Google图块”。 这些数据是法国的乡镇,以关于地图图例的特定颜色设置。

我编写了一种算法,该算法主要使用PIL处理图块(作为图片),然后再将其呈现给tesseract(使用pytesseract)。 最后,知道瓷砖的位置(并因此知道该地区可能有哪些乡镇),我使用Fuzzywuzzy process.extractBests尝试确定已找到哪个乡镇。

到目前为止,有些图片无法处理tesseract的任何结果对我来说似乎还不错(尽管它并不完美,但您可以清楚地读出法语名称“ Sainte Honorine de Ducy”) tesseract无法正确读取图块的一个示例

我应该指出,在这种情况下,原始图块的大小约为1500x3000像素(我已经在扩展图块的大小)。

我还修改了pytesseract,以传递doc中提到的'bazaar'关键字以及包含该地区乡镇的自定义'user-words'。 那只蜜蜂说,我只能在tesseract 1文档中找到“集市”参考,没有什么比最新文档中的链接更好。 实际上,我似乎还记得某处关于它在文档中出现错误的帖子……就其价值而言,它似乎并没有改变这里的结果。

你有什么建议吗 ? 特别是,您是否认为图片质量足以达到预期的效果?

我对使用这些特殊字体独自训练tesseract几乎一无所知。 考虑到这一点(并且我不管理数据源,甚至不知道使用什么字体...),我希望您可能比采取这种(巨大的)飞跃有更好的建议...

PS:我知道我可能不应该在没有任何代码的情况下发布此问题,但是我在这里更需要全局指导...无论如何我都会发布任何所需的代码!

我认为问题在于文本与图像大小相比太小。

您应该应用更多图像变换,以找到文本所处的更精确区域,尝试进行形态学变换 ,然后使用文本找到该区域的轮廓 还要看一下教程,它是与OpenCV一起使用的。

我尝试使用GIMP裁剪图像,然后将其调整为更大的尺寸:

在此处输入图片说明

pytesseract的结果是:

Saiptnmnorine-de-Ducy

这是可以接受的,在其他一些带有Fuzzywuzzy的处理中,您可以获得正确的名称。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM