使用 PyPDF2 在 Python 中提取日文 PDF 文件中的字符

Question

我正在实施一个程序来从 PDF 文件中提取文本。 PDF 文件由英文单词和日文字符组成。 我使用 PyPDF2，这是我尝试过的

例子：

日语.pdf

Japan History
日本の歴史

主程序

import PyPDF2

pdfFileObj = open('japanese.pdf','rb')   

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num=pdfReader.numPages

for a in range(0, num):
    pageObj = pdfReader.getPage(a)         
    text=pageObj.extractText().encode('utf-8')
    print(text)

结果

b'Japan \nHistory\n\n\n\n'

我怎样才能删除这个 \n 并显示这个日文字符

Answer 1

更新您的 PyPDF2 版本：

pip install PyPDF2 --upgrade

截至 2022 年 12 月，最新版本为PyPDF2==2.12.1 。 支持各种字母； 如果日语有问题，我会感到惊讶。 但是，如果没有示例文档，则很难判断。 我不会说/读日语。

使用 PyPDF2 在 Python 中提取日文 PDF 文件中的字符

问题描述

1 个解决方案

解决方案1
0 2022-12-20 22:23:11

使用 PyPDF2 在 Python 中提取日文 PDF 文件中的字符

问题描述

1 个解决方案

解决方案1 0 2022-12-20 22:23:11

解决方案1
0 2022-12-20 22:23:11