如何提高Pytesseract提取數字的准確性

Question

我正在測試Pytesseract，並用它來提取數字，如下所示。

圖像質量相當不錯（200 dpi）。 但是，當我運行pytesseract時，結果為456- / 8-0000 ，其中數字7被誤識別為'/'。 盡管“ /”顯然與數字7相似，但鑒於圖像的高質量，我仍然對此感到驚訝。

我都嘗試過

pytesseract.image_to_string(img)

和

pytesseract.image_to_string(img, lang='eng', config='--psm 13 --oem 2 -c tessedit_char_whitelist=0123456789-')

兩者都產生了相同的結果。

任何如何提高識別准確性的指標都將是很棒的。 謝謝！

Answer 1

您使用哪個版本的tesseract。 哪個tessdata？ 從tessdata和最近的tesseract和eng來看，最好的結果是完美的：

> tesseract 0mIe5.png  - quiet
456-78-0000