[英]How to convert text extracted from tesseract to pandas dataframe
這是我從包含表格的裁剪圖像中提取的文本:
S 編號 零件代碼 零件說明
HSN號
數量費率(Rs)
價值折扣 SGST SGST%
消費稅消費稅%
金額(盧比)
鏈條潤滑油 &
清潔套件-
34039900
0.16
1,406.78 213.5648
11.52
19.22
19.22
9
252.00
1個
3600008
S00ML。
141715
燈泡 12V-2VW(BA9S)
85392940
4個
10月17日
10月17日
0
0.92
0.92
9
12.01
2)
(停車處)
20.14
18
264.01
全部的
223.73
11.52
20.14
18
0.01
四舍五入
全部的
264
我想把這個轉換成pandas dataframe,我應該怎么做呢?
df = pytesseract.image_to_data('1.jpg', lang='eng', output_type='data.frame')
display(df)
您將需要指定output_type='data.frame'
。
from PIL import Image
import pytesseract
df = pytesseract.image_to_data(Image.open('your_image.jpeg'),lang='eng',output_type='data.frame')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.