PyPDF2 提取空文本

Question

我正在使用 PyPDF2 從 pdf 中提取文本。 我在谷歌中找到的所有示例看起來都像我的代碼：

import PyPDF2

reader = PyPDF2.PdfFileReader("test2.pdf")
page = reader.getPage(0)
text = page.extractText()
print(text.encode("utf-8"))

但是，我的控制台中有空文本：

b''

這段代碼我已經針對不同的 pdf 進行了測試，所有 pdf 都是空的

更新：

# getDocumentInfo
{'/Producer': 'Skia/PDF m75'}

文件pdf

Answer 1

看起來某些字體/文本組合使 PyPDF2、PyPDF3 或 PyPDF4 無法讀取文本。

要從這些 PDF 中提取文本，可以使用專用的 PDF 文本提取包pdfminer.six 。

from pdfminer import high_level

local_pdf_filename = "/path/to/pdf/you_want_to_extract_text_from.pdf"
pages = [0] # just the first page

extracted_text = high_level.extract_text(local_pdf_filename, "", pages)
print(extracted_text)

它適用於所有對我來說失敗的 pdf，並且可以非常快速地作為后備實施。 extract_text 函數的完整文檔在此處。

PyPDF2 提取空文本

問題描述

1 個解決方案

解決方案1
11 2020-11-03 07:03:00

PyPDF2 提取空文本

問題描述

1 個解決方案

解決方案1 11 2020-11-03 07:03:00

解決方案1
11 2020-11-03 07:03:00