[英]How to search if a substring is into a binary file in Python?
我想从PDF文件中获取一条信息。 如果我在文本编辑器中显示PDF文件,则总是可以在表单中找到所需内容
/Contents (Localidad: XXXXXXXXXXX)
X是我想要的东西。
我知道有PyPDF2可以读取PDF文件,问题是,我没有使用它。 我可以阅读文件的其余部分,并将其转换为文本,依此类推,但是我无法使用PyPDF2获得此特定信息。
因此,我认为我可以做类似的事情:
file = open("yada.pdf", "rb")
for line in file:
if "(Localidad:" in line:
# Extract the XXX's
当然,如果我这样做,Python会抱怨: TypeError: a bytes-like object is required, not 'str'
你怎么看? 我这样做是完全错误的? 有什么更好的方法?
像这样尝试:
import re
with open("yada.pdf", "rb") as f:
text = str(f.read()) # This will return the contents of the pdf in string format
location = re.findall("/Contents \(Localidad: (.+?)\)", text)
f.close()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.