改善tesseract结果（pytesseract）

Question

我一直在从类似TMS的服务器下载图块，其中显示了带有地理数据的“ Google图块”。 这些数据是法国的乡镇，以关于地图图例的特定颜色设置。

我编写了一种算法，该算法主要使用PIL处理图块（作为图片），然后再将其呈现给tesseract（使用pytesseract）。 最后，知道瓷砖的位置（并因此知道该地区可能有哪些乡镇），我使用Fuzzywuzzy process.extractBests尝试确定已找到哪个乡镇。

到目前为止，有些图片无法处理tesseract的任何结果对我来说似乎还不错（尽管它并不完美，但您可以清楚地读出法语名称“ Sainte Honorine de Ducy”） ：

我应该指出，在这种情况下，原始图块的大小约为1500x3000像素（我已经在扩展图块的大小）。

我还修改了pytesseract，以传递doc中提到的'bazaar'关键字以及包含该地区乡镇的自定义'user-words'。 那只蜜蜂说，我只能在tesseract 1文档中找到“集市”参考，没有什么比最新文档中的链接更好。 实际上，我似乎还记得某处关于它在文档中出现错误的帖子……就其价值而言，它似乎并没有改变这里的结果。

你有什么建议吗？ 特别是，您是否认为图片质量足以达到预期的效果？

我对使用这些特殊字体独自训练tesseract几乎一无所知。 考虑到这一点（并且我不管理数据源，甚至不知道使用什么字体...），我希望您可能比采取这种（巨大的）飞跃有更好的建议...

PS：我知道我可能不应该在没有任何代码的情况下发布此问题，但是我在这里更需要全局指导...无论如何我都会发布任何所需的代码！

Answer 1

我认为问题在于文本与图像大小相比太小。

您应该应用更多图像变换，以找到文本所处的更精确区域，尝试进行形态学变换，然后使用文本找到该区域的轮廓。 还要看一下本教程，它是与OpenCV一起使用的。

我尝试使用GIMP裁剪图像，然后将其调整为更大的尺寸：

pytesseract的结果是：

Saiptnmnorine-de-Ducy

这是可以接受的，在其他一些带有Fuzzywuzzy的处理中，您可以获得正确的名称。

改善tesseract结果（pytesseract）

问题描述

1 个解决方案

解决方案1
0 2018-04-17 20:55:00

改善tesseract结果（pytesseract）

问题描述

1 个解决方案

解决方案1 0 2018-04-17 20:55:00

解决方案1
0 2018-04-17 20:55:00