繁体   English   中英

如何使用 Python 3 和 PyPDF2 将以 unicode 编码的 PDF 文件转换为文本

[英]How to convert PDF files encoded in unicode into text using Python 3 and PyPDF2

我正在尝试使用 Python 3 和 PyPDF2 库将 PDF 转换为文本文件。 但是 PDF 主要是用韩语编写的,因此在处理 PDF 文本之前它似乎是用“utf-8”编码的。 但是,无论是阅读具有“打开”功能的 PDF 文件还是具有“编解码器”功能的 PDF 文件似乎都无法提取适当的“utf-8”编码文本。 您对使用 Python 3 和任何其他相关 Python 库从 PDF 文件中提取文本有什么想法吗? 提前致谢!

(您可以通过http://dart.fss.or.kr/pdf/download/pdf.do?rcp_no=20180402005019&dcm_no=6060273下载示例文件)

import PyPDF2
import codecs 

pdf_file = open('6060273.pdf','rb')
#pdf_file = codecs.open('6060273.pdf', 'rb', encoding='utf-8')

read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(20)
page_content = page.extractText()
print(page_content.encode('utf-8'))

在我看来,您的问题与您机器上安装的字体源有关。 PyPDF 附带的基本包没有预先包含整个 UTF8 世界,因为包含所有这些选项的库可能会增加它的大小。 但是,您可以在目录中安装必要的字体。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM