如何在 Python 中逐行讀取 PDF 文件？

Question

我在 python 2.7 中逐行閱讀 PDF 文件時遇到問題我想分別閱讀每一行並打印它們，我以前使用過但無法使用的本網站中的解決方案。

我試試這段代碼

import PyPDF2
pdfFileObj = open('c:\python\anms.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.numPages
pageObj = pdfReader.getPage(0)
pageObj.extractText()

但是此代碼提取 PDF 中的所有字符串我想提取所有字符串但不是逐行提取所有字符串。

導入 PyPDF2

pdfFileObj = open('c:\python\anms.pdf','rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

pdfReader.numPages

pageObj =pdfReader.getPage(0)

pageObj.extractText()

但是這段代碼提取PDF中的所有字符串我想提取所有字符串但逐行提取。

Answer 1

你可以通過將它保存在一個大字符串中來做到這一點

text = pageObj.extractText()

然后拆分每一行

lines = text.split("\n")

如果你想打印每一行只是遍歷列表，這會將每一行保存為列表lines中的一個元素

for i in lines:
    print(i)

如何在 Python 中逐行讀取 PDF 文件？

問題描述

1 個解決方案

解決方案1
0 2022-12-15 11:48:01

如何在 Python 中逐行讀取 PDF 文件？

問題描述

1 個解決方案

解決方案1 0 2022-12-15 11:48:01

解決方案1
0 2022-12-15 11:48:01