繁体   English   中英

使用 PyPDF2 在 Python 中提取日文 PDF 文件中的字符

[英]Extract Characters on japanese PDF File in Python using PyPDF2

我正在实施一个程序来从 PDF 文件中提取文本。 PDF 文件由英文单词和日文字符组成。 我使用 PyPDF2,这是我尝试过的

例子:

日语.pdf

Japan History
日本の歴史

主程序

import PyPDF2

pdfFileObj = open('japanese.pdf','rb')   

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num=pdfReader.numPages

for a in range(0, num):
    pageObj = pdfReader.getPage(a)         
    text=pageObj.extractText().encode('utf-8')
    print(text)

结果

b'Japan \nHistory\n\n\n\n'

我怎样才能删除这个 \n 并显示这个日文字符

更新您的 PyPDF2 版本:

pip install PyPDF2 --upgrade

截至 2022 年 12 月,最新版本为PyPDF2==2.12.1 支持各种字母; 如果日语有问题,我会感到惊讶。 但是,如果没有示例文档,则很难判断。 我不会说/读日语。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM