簡體   English   中英

我正在嘗試使用 pdfminer 在 python 中將數據提取為 HTML 元素

[英]I am trying to extract data as HTML elements in python using pdfminer

我正在嘗試使用 pdfminer 從 pdf 中提取數據作為 HTML 盡管我成功地從同一個 pdf 中提取文本現在我在將數據提取為 HTML 時遇到錯誤我必須進一步過濾數據以將其分類在 CSV 中。這是腳本.

from io import StringIO  
from pdfminer.layout import LAParams  
from pdfminer.high_level import extract_text_to_fp  

output_string = StringIO  

with open('mini.pdf','rb') as fn:  
    extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)

這就是我得到的錯誤。 點擊這里

以這種方式向 StringIO 添加括號: StringIO output_string = StringIO()將調用 class 構造,並且代碼可以使用它

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM