如何使用 Python 3 和 PyPDF2 将以 unicode 编码的 PDF 文件转换为文本

Question

我正在尝试使用 Python 3 和 PyPDF2 库将 PDF 转换为文本文件。 但是 PDF 主要是用韩语编写的，因此在处理 PDF 文本之前它似乎是用“utf-8”编码的。 但是，无论是阅读具有“打开”功能的 PDF 文件还是具有“编解码器”功能的 PDF 文件似乎都无法提取适当的“utf-8”编码文本。 您对使用 Python 3 和任何其他相关 Python 库从 PDF 文件中提取文本有什么想法吗？ 提前致谢！

（您可以通过http://dart.fss.or.kr/pdf/download/pdf.do?rcp_no=20180402005019&dcm_no=6060273下载示例文件）

import PyPDF2
import codecs 

pdf_file = open('6060273.pdf','rb')
#pdf_file = codecs.open('6060273.pdf', 'rb', encoding='utf-8')

read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(20)
page_content = page.extractText()
print(page_content.encode('utf-8'))

Answer 1

在我看来，您的问题与您机器上安装的字体源有关。 PyPDF 附带的基本包没有预先包含整个 UTF8 世界，因为包含所有这些选项的库可能会增加它的大小。 但是，您可以在目录中安装必要的字体。

如何使用 Python 3 和 PyPDF2 将以 unicode 编码的 PDF 文件转换为文本

问题描述

1 个解决方案

解决方案1
1 2018-12-17 15:53:47

如何使用 Python 3 和 PyPDF2 将以 unicode 编码的 PDF 文件转换为文本

问题描述

1 个解决方案

解决方案1 1 2018-12-17 15:53:47

解决方案1
1 2018-12-17 15:53:47