如何从图像中的表格中提取文本？

Question

我有结构化表格图像中的数据。 数据如下：

我尝试使用以下代码从此图像中提取文本：

import pytesseract
from PIL import Image

value=Image.open("data/pic_table3.png")
text = pytesseract.image_to_string(value, lang="eng")    
print(text)

并且，这是输出：

EA域名

传统角色

未来角色

技术 e 封闭平台 ¢ 开放平台

e 物理 e 虚拟化应用程序和 |e 专有 e 组织间集成 e 孤立的复合 e P2P 集成应用程序

e EAI 技术 e 软件即服务

e 企业系统 e 面向服务

e 自动化交易架构

e“信息”

互动

但是，预期的数据输出应根据列和行进行对齐。 我怎样才能做到这一点？

Answer 1

在将图像放入 OCR 之前，您必须对图像进行预处理以去除表格中的线条和点。 这是使用 OpenCV 的一种方法。

加载图像、灰度和大津阈值
删除水平线
去除垂直线
扩张以连接文本并使用轮廓区域过滤去除点
按位与重建图像
光学字符识别

这是处理后的图像：

Pytesseract 的结果

EA Domains Traditional role Future role
Technology Closed platforms Open platforms
Physical Virtualized
Applications and Proprietary Inter-organizational
Integration Siloed composite
P2P integrations applications
EAI technology Software as a Service
Enterprise Systems Service-Oriented
Automating transactions Architecture
“‘Informating”
interactions

代码

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

# Load image, grayscale, and Otsu's threshold
image = cv2.imread('1.png')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]

# Remove horizontal lines
horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (50,1))
detect_horizontal = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, horizontal_kernel, iterations=2)
cnts = cv2.findContours(detect_horizontal, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
for c in cnts:
    cv2.drawContours(thresh, [c], -1, (0,0,0), 2)

# Remove vertical lines
vertical_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1,15))
detect_vertical = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, vertical_kernel, iterations=2)
cnts = cv2.findContours(detect_vertical, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
for c in cnts:
    cv2.drawContours(thresh, [c], -1, (0,0,0), 3)

# Dilate to connect text and remove dots
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (10,1))
dilate = cv2.dilate(thresh, kernel, iterations=2)
cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
for c in cnts:
    area = cv2.contourArea(c)
    if area < 500:
        cv2.drawContours(dilate, [c], -1, (0,0,0), -1)

# Bitwise-and to reconstruct image
result = cv2.bitwise_and(image, image, mask=dilate)
result[dilate==0] = (255,255,255)

# OCR
data = pytesseract.image_to_string(result, lang='eng',config='--psm 6')
print(data)

cv2.imshow('thresh', thresh)
cv2.imshow('result', result)
cv2.imshow('dilate', dilate)
cv2.waitKey()

Answer 2

您可能希望首先检测细胞，如此图所示。 您可以使用霍夫线变换（OpenCV 提供的库）来实现。 之后，您可以使用检测到的线条来选择 ROI，然后为每个单元格提取文本。

有关详细说明，请访问我的博文

如何从图像中的表格中提取文本？

问题描述

2 个解决方案

解决方案1
5 2019-12-17 21:12:27

解决方案2
1 2020-06-24 15:56:34

如何从图像中的表格中提取文本？

问题描述

2 个解决方案

解决方案1 5 2019-12-17 21:12:27

解决方案2 1 2020-06-24 15:56:34

解决方案1
5 2019-12-17 21:12:27

解决方案2
1 2020-06-24 15:56:34