繁体   English   中英

在 Python 中使用 Tika 和正则表达式从 PDF 中提取文本

[英]Using Tika in Python and Regular Expression To Extract Text From PDF

我正在尝试使用 Python 中的 Tika 从 PDF 中提取特定信息。我尝试将正则表达式合并到代码中,但它返回错误。 这是我的代码:

from tika import parser
import re

parsed = parser.from_file("PDF/File.pdf")
desc = re.findall(r'((?:[A-Z][a-z]+\s*)+)\b\s*:\s*(.*?)\s*(?=(?:[A-Z][a-z]+\s*)+:|$)', parsed)

print(desc["content"])

返回错误如下:

TypeError: expected string or bytes-like object, got 'dict'

是否有修复错误的解决方案以及可以将正则表达式传递到代码中的方法?

作为 PyMuPDF 的维护者,我只需要演示它如何与这个库一起工作:

import fitz  # import pymupdf
import re

doc = fitz.open("PDF/File.pdf")
text = " ".join([page.get_text() for page in doc])
desc = re.findall(r'...', text)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM