簡體   English   中英

Python PIL圖像到文本無法正常工作

[英]Python PIL image to text not working properly

下面是我的python腳本,用於讀取圖像上的文本。 但是它不能正常工作,因為后面的t讀為+f 。我想知道如何處理此問題? 我還附上了我要閱讀的文件。

import tesserocr
from PIL import Image

print tesserocr.tesseract_version()  # print tesseract-ocr version
print tesserocr.get_languages()  # prints tessdata path and list of available languages

image = Image.open('test.png')
#print tesserocr.image_to_text(image)  # print ocr text from image
# or
print tesserocr.file_to_text('test.png')

在此處輸入圖片說明

只需在命令行中使用Tesseract 4.0.0 alpha運行,結果如下。

  • tesseract PILtoText.png PILtoText_out.txt -c preserve_interword_spaces=1 --psm 3 --oem 3

在今天向美國證券交易委員會(SEC)提交的一份監管文件中,Adobe宣布,首席技術官凱文·林奇(Kevin Lynch)將在本周五離職。

2013年3月18日,凱文·林奇(Kevin Lynch)辭去了Adobe Systems Incorporated的執行副總裁兼首席技術官的職務,自2013年3月22日起生效,以尋求文件中提到的其他機會。林奇(Lynch)於2005年加入公司收購Macromedia后,Adobe進入了一些更前沿的技術領域,包括多屏計算,雲計算和社交媒體。

長期以來,Adobe已扎根於印刷設計社區的工作流程中。 Lynch負責公司從Dreamweaver開始的網絡發布轉變。 他還監督了Adobe的研究和經驗設計團隊,並且如Adobe所說,負責“塑造Adobe的長期技術構想,並在轉型時期將創新重點放在整個公司”。

網上有傳言稱蘋果是林奇的下一個目的地,這並不是完全荒謬的傳言。 即使沒有盈利,Adobe向Web技術的過渡也算不了什么。 蘋果仍然是消費硬件領域的巨頭,在多屏流動性,社交媒體和基於Web的軟件方面,可以伸出援手。

結果表明,除了將大寫F轉換為f之外,文本圖像已被正確識別。 例如,F riday到f riday在第一段。

如果您使用的是Tesseract 3.x ,建議將其升級到Tesseract 4.0以改善OCR結果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM