如何在Python / Django中逐行讀取pdf文件？

Question

我正在處理等於或小於5KB的文本和pdf文件。 如果文件是文本文件，我將從表單中獲取文件，並以字符串形式獲取所需的輸入以進行匯總：

 file = file.readlines()
 file = ''.join(file)
 result = summarize(file, num_sentences)

這很容易做到，但是對於pdf文件，事實並非如此簡單。 有沒有辦法像在Python / Django中使用txt文件那樣將pdf文件的句子作為字符串獲取？

Answer 1

我不認為有可能像處理txt文件一樣讀取pdf，需要將pdf轉換為txt文件（請參閱Python模塊將PDF轉換為文本），然后進行處理。 您也可以參考此文件，輕松地將pdf轉換為txt http://code.activestate.com/recipes/511465-pure-python-pdf-to-text-converter/

Answer 2

在Django中，您可以執行以下操作：

views.py：

def upload_pdf():
     if request.method == 'POST' and request.FILES['myfile']:
        pdfFileObj = request.FILES['myfile'].read() 
        pdfReader = PyPDF2.PdfFileReader(io.BytesIO(pdfFileObj))
        NumPages = pdfReader.numPages
        i = 0
        content = []
        while (i<NumPages):
            text = pdfReader.getPage(i)
            content.append(text.extractText())
            i +=1
       # depends on what you want to do with the pdf parsing results
       return render(request, .....)

html部分：

<form method="post" enctype="multipart/form-data" action="/url">
    {% csrf_token %}
      <input  type="file" name="myfile"> # the name is the same as the one you put in FILES['myfile']
    <button class="butto" type="submit">Upload</button>
</form>

在Python中，您可以執行以下操作：

fileName = "path/test.pdf"
pdfFileObj = open(fileName,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
NumPages = pdfReader.numPages

i = 0
content = []
while (i<NumPages):
    text = pdfReader.getPage(i)
    content.append(text.extractText())
    i +=1

如何在Python / Django中逐行讀取pdf文件？

問題描述

2 個解決方案

解決方案1
3 2013-04-10 10:49:04

解決方案2
0 2019-05-28 11:50:39

如何在Python / Django中逐行讀取pdf文件？

問題描述

2 個解決方案

解決方案1 3 2013-04-10 10:49:04

解決方案2 0 2019-05-28 11:50:39

解決方案1
3 2013-04-10 10:49:04

解決方案2
0 2019-05-28 11:50:39