簡體   English   中英

如何將從 tesseract 中提取的文本轉換為 pandas dataframe

[英]How to convert text extracted from tesseract to pandas dataframe

這是我從包含表格的裁剪圖像中提取的文本:

S 編號 零件代碼 零件說明

HSN號

數量費率(Rs)

價值折扣 SGST SGST%

消費稅消費稅%

金額(盧比)

鏈條潤滑油 &

清潔套件-

34039900

0.16

1,406.78 213.5648

11.52

19.22

19.22

9

252.00

1個

3600008

S00ML。

141715

燈泡 12V-2VW(BA9S)

85392940

4個

10月17日

10月17日

0

0.92

0.92

9

12.01

2)

(停車處)

20.14

18

264.01

全部的

223.73

11.52

20.14

18

0.01

四舍五入

全部的

264

這是圖像桌子

我想把這個轉換成pandas dataframe,我應該怎么做呢?

df = pytesseract.image_to_data('1.jpg', lang='eng', output_type='data.frame')
display(df)

您將需要指定output_type='data.frame'

from PIL import Image
import pytesseract

df = pytesseract.image_to_data(Image.open('your_image.jpeg'),lang='eng',output_type='data.frame')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM