簡體   English   中英

Python 手寫文字提取

[英]Python handwritten text extraction

我需要從圖像文件中提取一些文本,但手寫信息效果不佳。 它寫在我用適當的掃描儀掃描回來的打印紙上

手寫信息遵循某種模式,並且在大多數情況下位於空白區域且大小合適

我試過的:

  • tesseract 的不同語言(eng_best、eng_fast、por_best、por_fast)
  • 閱讀前的不同圖像處理(灰度、模糊和許多其他人的食譜)
  • 顏色閾值以隔離藍色(我嘗試過的范圍均無效)
  • 用 gimp 擦除打印的文本以隔離書面內容(仍然 tesseract 無法高效)
  • cv2.matchTemplate 找到一個數據的索引和 map 它

我的想法不多了

這是一個圖片作為例子

您可以通過使用 TensorFlow、OpenCV 和 Keras 來利用 OCR。 查看本教程: https://www.pyimagesearch.com/2020/08/24/ocr-handwriting-recognition-with-opencv-keras-and-tensorflow/

以下是一些用於圖像比較和學習的基礎圖像: http://yann.lecun.com/exdb/mnist/

他們有一個很好的細分,這可能會幫助您理解!

easyocr 是這里的替代方案! 輸入圖像調整和飼料如下
在此處輸入圖像描述

import cv2
import numpy as np
import easyocr

reader = easyocr.Reader(['en'],gpu = False) # load once only in memory.

image_file_name='handwritten.png' 
image = cv2.imread(image_file_name)

# sharp the edges or image.
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
sharpen_kernel = np.array([[-1,-1,-1], [-1,9,-1], [-1,-1,-1]])
sharpen = cv2.filter2D(gray, -1, sharpen_kernel)
thresh = cv2.threshold(sharpen, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]
r_easy_ocr=reader.readtext(thresh,detail=0)

粗體示例文本
['Prontuario=', '0000069450', 'Atendimento=', '824222', 'Nascimento: 12/12/1958', 'Convenio', 'SUS', 'AMBULATORIO', 'Data Atend,', '10/ 06/2019', '2.31.37', 'Sexo:', 'Masculino', 'Conselho', '41921', 'ANAMNESE', 'CONSULTA URGENCIA', 'QP: REFERE SENSACAO DE ALGO ARRANHANDO EM OD, INICIO ONTEM ,', 'T 1 ', 'REFERE TER OCULOS, NAQ TROUXE HQJE', ' P 6' , 'HMP:', 'NEGA HAS,', 'Ao', 'J' , 'NEGA DM,', 'EM USO DE;', 'NADA', 'ALERGIA MEDICAMENTOSA: NEGA', 'Ap L', 'CIRURGIAS OCULARES PREVIA: NEGA:', 'TRAUMA OCULAR PREVIA: NEGA.', '2ol50', '0lh', '1' , 'HMF', 'NEGA HISTORIA DE GLAUCOMA OU CEGUEIRA', 'AV SC:', 'Bio', '3', 'OD; 20/50', '20/25P COM PH', 'OE; 20/50'、'20/25P COM PH'、'BIO QD='、'德'、'3。 1'、'PALPEBRAS E TARSOS SA'、'CA PROF、SEM RCA、SEM PKS、PFR'、'C TRANSP'、'SEM AREA CORANDO'、'Pio'、'1'、'CE PERIPUPILAR AS 6H'、' BIO OE;'、'Oiag'、'4'、'PALPEBRAS E TARSOS SA'、'CA PROF'、'SEM RCA、SEM PKS、PFR'、'C TRANSP、SEM AREA CORANDO'、'JTo'、 '1'、'TBD NORMAL AO'、'CD: RETIRO CE'、'1'、'CURATIVO COM REGENCEL'、'REGENCEL E LUBRIFICANTE'、'ORIENTACOES GERAIS'、'RETORNO IMEDIATO SE PIORA'、'SINAIS DE ALARME' , 'R1 VANESSA P', 'Jirg']"

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM