繁体   English   中英

如何将正则表达式应用于 Python 中的多个 PDF 页面

[英]How to apply Regular Expression to multiple PDF pages in Python

这实际上是我第一次尝试 Python。 我正在尝试对发票应用重新搜索以搜索具有 4 个 alpha 字符的行。 它可以工作,但是它只应用于 PDF 的最后一页。 我相当确定我需要做一些类似于 print(page.extract_text()) 的事情,我对如何正确编写它以应用于所有页面并打印所述结果感到有些困惑。

import pdfplumber
import re

PO = r"PO.pdf"

with pdfplumber.open(PO) as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        #print(page.extract_text())

re_new_chassis = re.compile(r'^[A-Z]{4}.*')

for line in text.split('\n'):                    
     if re_new_chassis.match(line):
          print(line)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM