[英]Reading PDF using PyPDF2 not resulting anything
这是我的代码-礼貌-http: //code.activestate.com/recipes/511465-pure-python-pdf-to-text-converter/ 。 我对其进行了修改,以包括PyPDF的下一版本。
import PyPDF2
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = PyPDF2.PdfFileReader(file(path, "rb"))
# Iterate pages
print "Number of pages is ", pdf.getNumPages()
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
print (content)
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
print getPDFContent("RL.pdf").encode("ascii", "xmlcharrefreplace")
我正在读取的文件在这里。 http://dmc.kar.nic.in/RL.pdf
我所得到的就是这个。
此后,页数为1。
这是PDF的问题,还是我在某处出错? 所有帮助表示赞赏!
该文件原来已损坏。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.