繁体   English   中英

如何在Python中搜索子字符串是否进入二进制文件?

[英]How to search if a substring is into a binary file in Python?

我想从PDF文件中获取一条信息。 如果我在文本编辑器中显示PDF文件,则总是可以在表单中找到所需内容

/Contents (Localidad: XXXXXXXXXXX)

X是我想要的东西。

我知道有PyPDF2可以读取PDF文件,问题是,我没有使用它。 我可以阅读文件的其余部分,并将其转换为文本,依此类推,但是我无法使用PyPDF2获得此特定信息。

因此,我认为我可以做类似的事情:

file = open("yada.pdf", "rb")
for line in file:
    if "(Localidad:" in line:
        # Extract the XXX's

当然,如果我这样做,Python会抱怨: TypeError: a bytes-like object is required, not 'str'

你怎么看? 我这样做是完全错误的? 有什么更好的方法?

像这样尝试:

import re
with open("yada.pdf", "rb") as f:
    text = str(f.read()) # This will return the contents of the pdf in string format
    location = re.findall("/Contents \(Localidad: (.+?)\)", text)
    f.close()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM