簡體 English 中英

我正在嘗試使用 pdfminer 在 python 中將數據提取為 HTML 元素

[英]I am trying to extract data as HTML elements in python using pdfminer

原文 2020-08-21 13:34:53 4 1 python/ python-3.x/ pdfminer/ pdf-conversion/ pdf-to-html

我正在嘗試使用 pdfminer 從 pdf 中提取數據作為 HTML 盡管我成功地從同一個 pdf 中提取文本現在我在將數據提取為 HTML 時遇到錯誤我必須進一步過濾數據以將其分類在 CSV 中。這是腳本.

from io import StringIO  
from pdfminer.layout import LAParams  
from pdfminer.high_level import extract_text_to_fp  

output_string = StringIO  

with open('mini.pdf','rb') as fn:  
    extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)

這就是我得到的錯誤。 點擊這里

1 個解決方案

以這種方式向 StringIO 添加括號： StringIO output_string = StringIO()將調用 class 構造，並且代碼可以使用它

使用 PDFminer 從發票 PDF 中提取特定數據值：Python

[英]Extract specific Data values from Invoices PDF using PDFminer : Python

如何使用 selenium 和 python 抓取數據，我正在嘗試提取標題 div 標簽中的所有數據

[英]How to scrape data using selenium and python, I am trying to extract all the data which is in title div tag

我正在嘗試從python網站提取數據

[英]I am trying to extract data from a website in python

我正在嘗試使用 python 從 html 網站中提取一些數據

[英]im trying to extract some data out of html website using python

我試圖從使用urllib的網站獲取html數據但是對於某些網站我最終在python中使用了一些未知字符

[英]I am trying to get html data from a site using urllib but for some sites i am ending up with some unknown characters in python

如何使用 pdfminer python 從 pdf 中提取表格文本

[英]How to extract table text from pdfs using pdfminer python

使用pdfminer python從PDF文件中提取信息

[英]Using pdfminer python to extract information from PDF file

使用 Python PDFMiner 將多個 PDF 提取到文本文件的循環腳本

[英]Loop script to extract multiple PDFs to text files using Python PDFMiner

我可以使用python的pdfminer從pdf中提取高光嗎？

[英]Can I use python's pdfminer to extract highlights from a pdf?

如何在python中使用pdfminer從在線PDF中提取文本

[英]How to extract text from online PDF using pdfminer in python

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 PDFminer 從發票 PDF 中提取特定數據值：Python 如何使用 selenium 和 python 抓取數據，我正在嘗試提取標題 div 標簽中的所有數據我正在嘗試從python網站提取數據我正在嘗試使用 python 從 html 網站中提取一些數據我試圖從使用urllib的網站獲取html數據但是對於某些網站我最終在python中使用了一些未知字符如何使用 pdfminer python 從 pdf 中提取表格文本使用pdfminer python從PDF文件中提取信息使用 Python PDFMiner 將多個 PDF 提取到文本文件的循環腳本我可以使用python的pdfminer從pdf中提取高光嗎？如何在python中使用pdfminer從在線PDF中提取文本

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM