已经编写了一个程序来从python中的PDF中提取文本，现在需要使其针对文件夹中的每个PDF运行并另存为文本文件

Question

到目前为止，这里是我的代码（它正在正常工作并提取文本。）

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

print getPDFContent("/home/nick/TAM_work/TAM_pdfs/2006-1.pdf").encode("ascii", "ignore")

现在，我需要添加一个for循环以使其能够在/ TAM_pdfs中的所有PDF上运行，将文本另存为CSV，并（如果可能）添加一些内容以对图片进行计数。 任何帮助将不胜感激。 感谢您的光临。

马特

Answer 1

看看os.walk()

Answer 2

glob模块可以帮助您在单个目录中查找与通配符模式匹配的所有文件。

Answer 3

for循环，使其可以在目录中的所有PDF上运行 ：查看glob模块

将文本另存为CSV ：查看csv模块

数图片 ：看pyPDF模块:-)

关于此声明的两个评论：

content = " ".join(content.replace(u"\xa0", " ").strip().split())

（1）不必用SPACE替换NBSP（U + 00A0），因为unicode.split() （自然）将NBSP视为空白。

（2）使用strip（）是多余的：

>>> u"  foo  bar  ".split()
[u'foo', u'bar']
>>>

已经编写了一个程序来从python中的PDF中提取文本，现在需要使其针对文件夹中的每个PDF运行并另存为文本文件

问题描述

3 个解决方案

解决方案1
4 2010-01-06 22:31:02

解决方案2
0 2010-01-06 22:32:21

解决方案3
0 已采纳 2010-01-06 22:36:11

已经编写了一个程序来从python中的PDF中提取文本，现在需要使其针对文件夹中的每个PDF运行并另存为文本文件

问题描述

3 个解决方案

解决方案1 4 2010-01-06 22:31:02

解决方案2 0 2010-01-06 22:32:21

解决方案3 0 已采纳 2010-01-06 22:36:11

解决方案1
4 2010-01-06 22:31:02

解决方案2
0 2010-01-06 22:32:21

解决方案3
0 已采纳 2010-01-06 22:36:11