[英]Python PIL image to text not working properly
下面是我的python腳本,用於讀取圖像上的文本。 但是它不能正常工作,因為后面的t
讀為+
或f
。我想知道如何處理此問題? 我還附上了我要閱讀的文件。
import tesserocr
from PIL import Image
print tesserocr.tesseract_version() # print tesseract-ocr version
print tesserocr.get_languages() # prints tessdata path and list of available languages
image = Image.open('test.png')
#print tesserocr.image_to_text(image) # print ocr text from image
# or
print tesserocr.file_to_text('test.png')
只需在命令行中使用Tesseract 4.0.0 alpha
運行,結果如下。
tesseract PILtoText.png PILtoText_out.txt -c preserve_interword_spaces=1 --psm 3 --oem 3
在今天向美國證券交易委員會(SEC)提交的一份監管文件中,Adobe宣布,首席技術官凱文·林奇(Kevin Lynch)將在本周五離職。
2013年3月18日,凱文·林奇(Kevin Lynch)辭去了Adobe Systems Incorporated的執行副總裁兼首席技術官的職務,自2013年3月22日起生效,以尋求文件中提到的其他機會。林奇(Lynch)於2005年加入公司收購Macromedia后,Adobe進入了一些更前沿的技術領域,包括多屏計算,雲計算和社交媒體。
長期以來,Adobe已扎根於印刷設計社區的工作流程中。 Lynch負責公司從Dreamweaver開始的網絡發布轉變。 他還監督了Adobe的研究和經驗設計團隊,並且如Adobe所說,負責“塑造Adobe的長期技術構想,並在轉型時期將創新重點放在整個公司”。
網上有傳言稱蘋果是林奇的下一個目的地,這並不是完全荒謬的傳言。 即使沒有盈利,Adobe向Web技術的過渡也算不了什么。 蘋果仍然是消費硬件領域的巨頭,在多屏流動性,社交媒體和基於Web的軟件方面,可以伸出援手。
結果表明,除了將大寫F
轉換為f
之外,文本圖像已被正確識別。 例如,F riday到f riday在第一段。
如果您使用的是Tesseract 3.x
,建議將其升級到Tesseract 4.0
以改善OCR結果。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.