如何將從 tesseract 中提取的文本轉換為 pandas dataframe

Question

這是我從包含表格的裁剪圖像中提取的文本：

S 編號零件代碼零件說明

HSN號

數量費率(Rs)

價值折扣 SGST SGST%

消費稅消費稅%

金額（盧比）

鏈條潤滑油 &

清潔套件-

34039900

0.16

1,406.78 213.5648

11.52

19.22

9

252.00

1個

3600008

S00ML。

141715

燈泡 12V-2VW(BA9S)

85392940

4個

10月17日

0

0.92

9

12.01

2)

（停車處）

20.14

18

264.01

全部的

223.73

11.52

20.14

18

0.01

四舍五入

全部的

264

這是圖像

我想把這個轉換成pandas dataframe，我應該怎么做呢？

df = pytesseract.image_to_data('1.jpg', lang='eng', output_type='data.frame')
display(df)

Answer 1

您將需要指定output_type='data.frame' 。

from PIL import Image
import pytesseract

df = pytesseract.image_to_data(Image.open('your_image.jpeg'),lang='eng',output_type='data.frame')

如何將從 tesseract 中提取的文本轉換為 pandas dataframe

問題描述

1 個解決方案

解決方案1
0 已采納 2021-10-04 13:18:54

如何將從 tesseract 中提取的文本轉換為 pandas dataframe

問題描述

1 個解決方案

解決方案1 0 已采納 2021-10-04 13:18:54

解決方案1
0 已采納 2021-10-04 13:18:54