如何在Python中搜索子字符串是否进入二进制文件？

Question

我想从PDF文件中获取一条信息。 如果我在文本编辑器中显示PDF文件，则总是可以在表单中找到所需内容

/Contents (Localidad: XXXXXXXXXXX)

X是我想要的东西。

我知道有PyPDF2可以读取PDF文件，问题是，我没有使用它。 我可以阅读文件的其余部分，并将其转换为文本，依此类推，但是我无法使用PyPDF2获得此特定信息。

因此，我认为我可以做类似的事情：

file = open("yada.pdf", "rb")
for line in file:
    if "(Localidad:" in line:
        # Extract the XXX's

当然，如果我这样做，Python会抱怨： TypeError: a bytes-like object is required, not 'str'

你怎么看？ 我这样做是完全错误的？ 有什么更好的方法？

Answer 1

像这样尝试：

import re
with open("yada.pdf", "rb") as f:
    text = str(f.read()) # This will return the contents of the pdf in string format
    location = re.findall("/Contents \(Localidad: (.+?)\)", text)
    f.close()

如何在Python中搜索子字符串是否进入二进制文件？

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-11-24 07:42:34

如何在Python中搜索子字符串是否进入二进制文件？

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-11-24 07:42:34

解决方案1
1 已采纳 2016-11-24 07:42:34