[英]Extract Characters on japanese PDF File in Python using PyPDF2
我正在实施一个程序来从 PDF 文件中提取文本。 PDF 文件由英文单词和日文字符组成。 我使用 PyPDF2,这是我尝试过的
例子:
日语.pdf
Japan History
日本の歴史
主程序
import PyPDF2
pdfFileObj = open('japanese.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num=pdfReader.numPages
for a in range(0, num):
pageObj = pdfReader.getPage(a)
text=pageObj.extractText().encode('utf-8')
print(text)
结果
b'Japan \nHistory\n\n\n\n'
我怎样才能删除这个 \n 并显示这个日文字符
更新您的 PyPDF2 版本:
pip install PyPDF2 --upgrade
截至 2022 年 12 月,最新版本为PyPDF2==2.12.1
。 支持各种字母; 如果日语有问题,我会感到惊讶。 但是,如果没有示例文档,则很难判断。 我不会说/读日语。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.