在 Python 中使用 Tika 和正则表达式从 PDF 中提取文本

Question

我正在尝试使用 Python 中的 Tika 从 PDF 中提取特定信息。我尝试将正则表达式合并到代码中，但它返回错误。 这是我的代码：

from tika import parser
import re

parsed = parser.from_file("PDF/File.pdf")
desc = re.findall(r'((?:[A-Z][a-z]+\s*)+)\b\s*:\s*(.*?)\s*(?=(?:[A-Z][a-z]+\s*)+:|$)', parsed)

print(desc["content"])

返回错误如下：

TypeError: expected string or bytes-like object, got 'dict'

是否有修复错误的解决方案以及可以将正则表达式传递到代码中的方法？

Answer 1

作为 PyMuPDF 的维护者，我只需要演示它如何与这个库一起工作：

import fitz  # import pymupdf
import re

doc = fitz.open("PDF/File.pdf")
text = " ".join([page.get_text() for page in doc])
desc = re.findall(r'...', text)

在 Python 中使用 Tika 和正则表达式从 PDF 中提取文本

问题描述

1 个解决方案

解决方案1
0 2023-01-23 07:30:38

在 Python 中使用 Tika 和正则表达式从 PDF 中提取文本

问题描述

1 个解决方案

解决方案1 0 2023-01-23 07:30:38

解决方案1
0 2023-01-23 07:30:38