cost 150 ms
在 Python 中使用 Tika 和正则表达式从 PDF 中提取文本 - Using Tika in Python and Regular Expression To Extract Text From PDF

我正在尝试使用 Python 中的 Tika 从 PDF 中提取特定信息。我尝试将正则表达式合并到代码中,但它返回错误。 这是我的代码: 返回错误如下: 是否有修复错误的解决方案以及可以将正则表达式传递到代码中的方法? ...

如何使用 JSR223 或 beanshell 采样器在 Jmeter 中创建工作簿? - How to create workbook in Jmeter using JSR223 or beanshell sampler?

尝试在 Jmeter 中创建工作簿时出现错误。我正在使用“tika-app.jar”创建工作簿后,我想在 excel xlx 文件中写入数据。 下面是我的 JSR223 采样器: 我得到的错误响应如下: 有人可以帮忙吗 ...

将 tika-app 从 1.28.1 升级到 1.28.2(或更高版本)会生成无效的 .xlsx 文件 - Upgrading tika-app from 1.28.1 to 1.28.2 (or greater) generates invalid .xlsx files

我在 JMeter 5.5 中有 groovy 代码,它采用 Excel 模板,然后用数据填充它。 由于 tika-app 库中的安全漏洞,我们被要求升级到更新版本的 tika-app。 但是,当我们升级到高于 1.28.1 的 tika-app 版本时,我们的代码会生成 excel 文件,但被测系 ...

尝试解析文本包含图像的 pdf 时使用 Apache tika 解析器的问题 - Issue using Apache tika parser when trying to parse pdf having text contains image

我正在使用这两个依赖项:- tika core 2.6.0 tika parser standard package 2.6.0.Parsing 在这些情况下工作正常:- pdf 带文本的文件。 pdf 带图像的文件。 文本文件和其他扩展名。 对于以下用例,解析失败并出现 pdfparser 运行 ...

Apache Tika 无法正确检测 MIME 类型 - Apache Tika cannot detect MIME type properly

我正在尝试使用Apache Tika上传文件时检测文件类型,如下所示: 对于某些文件扩展名,例如*.acc ,Apache Tika 将文件类型检测为application/octet-stream 。 所以,在这种情况下: 1.是否有正确检测某些文件类型(例如*.acc )并获取其确切文件类型( ...

打印word文档的标题(docx) - Print headings of a word document (docx)

在一个 docx 文档中,我希望能够获得一个包含文件中所有标题(章节)的列表。 每个具有“标题 1”、“标题 2”等的文本。这是 word 文件: 我正在使用 apache POI 读入文件。 但是,当我尝试从段落或运行中获取样式时,它总是返回 NULL。 Output: 所以问题是,如果我无 ...

将img标签替换为对应ocr标签的文本 - Replace the img tag with the text of the corresponding ocr tag

我有一个 docx 文件,从中提取它包含的所有文本。 该文件包含许多图像,多亏了 tika,我可以从文档中提取文本以及从图像中提取文本。 我需要的是用相应的文本替换图像标签。 我正在使用 python 和 beatifulsoup 来做到这一点。 我把 xml 文件留在这里,看看是否有人可以帮 ...

如何进一步处理 Tika / PDFBox 无法解析但 Evince / Libre Office Draw 可以解析的错误/格式错误的 PDF? - How to further process a buggy / malformed PDF that cannot be parsed by Tika / PDFBox but can by Evince / Libre Office Draw?

我的程序正在使用 Tika 2.24 读取文档以提取其内容。 然而,尽管 Evince、Libre Office Draw 甚至 Gimp 可以打开它们,但某些 PDF(可能有错误或格式错误)无法由 PDFBox 处理。 我无法共享这些 PDF,但我可以说的是,它们曾经触发StackOverFlo ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM