繁体   English   中英

extractText() 函数不返回文本

[英]The extractText() fucntion does not return text

pdfFileObject = open('MDD.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
count = pdfReader.numPages
for i in range(count):
    page = pdfReader.getPage(i)
    print(page.extractText()

以上是我的代码,当我运行脚本时,它只输出一堆数字和数字,而不是文件的文本。 有人可以帮我吗?

此功能不适用于所有 PDF 文件。 这在文档中有解释:

这对某些 PDF 文件效果很好,但对其他文件效果不佳,具体取决于所使用的生成器。 这将在未来细化。 不要依赖于这个函数的文本顺序,因为如果这个函数变得更复杂,它会改变。 :return: 一个 unicode 字符串对象。

在这个文件上试试你的代码。 我确定它应该可以工作,所以问题似乎不在您的代码中。

如果您确实需要解析以与原始 MDD.pdf 相同的方式创建的文件,则必须选择另一个库。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM