簡體   English   中英

如何從圖像中提取表格數據?

[英]How to extract tabular data from images?

我有一些示例圖像。 如何從圖像中提取表格數據並將其存儲為JSON格式?

圖片1

使用pytesseract 該代碼將是這樣的。 您可以嘗試其他修改。 我的代碼可能無法解決整個問題。這只是一個示例代碼,它將適用於黑色文本,但適用於藍色和任何其他顏色,因此您必須相應地創建一個遮罩,然后提取該數據。

import pytesseract
from PIL import Image, ImageEnhance, ImageFilter

im = Image.open("temp.jpg")

maxsize = (2024, 2024)
im=im.thumbnail(maxsize, PIL.Image.ANTIALIAS) 

im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)

im = enhancer.enhance(2)
im = im.convert('1')

im.save('mod_file.jpg')
text = pytesseract.image_to_string(Image.open('mod_file.jpg'))
print(text)

例如,對於紅色檢測,可以參考這篇文章 得到紅色文本后,將圖像二值化,然后運行

text = pytesseract.image_to_string(Image.open('red_text_file.jpg'))

同樣,您將必須對藍色執行相同的過程,依此類推。 我相信您可以輕松地自己做,只是嘗試一些價值觀。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM