簡體   English   中英

PyPDF2 提取空白文本

[英]PyPDF2 extracts blank text

我正在嘗試從 PyPDF2 中提取文本,但它正在從 PDF 中提取空白文本。 PDF 是文本的,而不是基於圖像的。 有什么方法可以概括 pdf 以便提取文本? Bcoz 我不想更改我的整個代碼所依賴的庫。 否則,我將不得不重寫整個 2000 多行代碼。 在此處找到 pdf: https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt5Ovhc/view?usp=sharing

import PyPDF2
pdf_file = open('sample.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()

extractText()仍然無法正確提取文本。 您可以使用另一個名為slate的庫:

安裝石板:

pip install slate3k

提取文本:

with open('G10.pdf','rb') as f:
    extracted_text = slate.PDF(f)
print(extracted_text)

你也可以通過這個答案在這里go 。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM