如何提高Pytesseract提取数字的准确性

Question

我正在测试Pytesseract，并用它来提取数字，如下所示。

图像质量相当不错（200 dpi）。 但是，当我运行pytesseract时，结果为456- / 8-0000 ，其中数字7被误识别为'/'。 尽管“ /”显然与数字7相似，但鉴于图像的高质量，我仍然对此感到惊讶。

我都尝试过

pytesseract.image_to_string(img)

和

pytesseract.image_to_string(img, lang='eng', config='--psm 13 --oem 2 -c tessedit_char_whitelist=0123456789-')

两者都产生了相同的结果。

任何如何提高识别准确性的指标都将是很棒的。 谢谢！

Answer 1

您使用哪个版本的tesseract。 哪个tessdata？ 从tessdata和最近的tesseract和eng来看，最好的结果是完美的：

> tesseract 0mIe5.png  - quiet
456-78-0000