标签[apache-tika] - 堆栈内存溢出

在 Python 中使用 Tika 和正则表达式从 PDF 中提取文本 - Using Tika in Python and Regular Expression To Extract Text From PDF

我正在尝试使用 Python 中的 Tika 从 PDF 中提取特定信息。我尝试将正则表达式合并到代码中，但它返回错误。这是我的代码：返回错误如下：是否有修复错误的解决方案以及可以将正则表达式传递到代码中的方法？ ...

如何使用 JSR223 或 beanshell 采样器在 Jmeter 中创建工作簿？ - How to create workbook in Jmeter using JSR223 or beanshell sampler?

尝试在 Jmeter 中创建工作簿时出现错误。我正在使用“tika-app.jar”创建工作簿后，我想在 excel xlx 文件中写入数据。下面是我的 JSR223 采样器：我得到的错误响应如下：有人可以帮忙吗 ...

将 tika-app 从 1.28.1 升级到 1.28.2（或更高版本）会生成无效的 .xlsx 文件 - Upgrading tika-app from 1.28.1 to 1.28.2 (or greater) generates invalid .xlsx files

我在 JMeter 5.5 中有 groovy 代码，它采用 Excel 模板，然后用数据填充它。由于 tika-app 库中的安全漏洞，我们被要求升级到更新版本的 tika-app。但是，当我们升级到高于 1.28.1 的 tika-app 版本时，我们的代码会生成 excel 文件，但被测系 ...

将 Tesseract OCR 与 Solr 9.1 结合使用 - Using Tesseract OCR with Solr 9.1

我有一个正在运行的设置，我可以在其中提取 Solr（8.11.2 和 tika 1.27）并从 Tesseract (5.2.0) 获取 OCR。为此，我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties 我现在正在尝试使用 sol ...

无法通过请求或 selenium 访问 pdf 文档 - Unable to access pdf document via requests or selenium

我有一个巨大的 URL 列表，每个 URL 加载不同的 PDF 文档。这是其中之一： https://ccmspa.pinellascounty.org/PublicAccess/ViewDocumentFragment.aspx?DocumentFragmentID=74223655&C ...

增加 TIKA 中的 OCR 超时 - Increase OCR timeout in TIKA

在最新的 Tika:2.5 中，默认 OCR 超时为 300 - 如果多个并行处理的文档或图像执行 OCR 会导致 Tika OCR 超时，因此 Tika 对完整文档的异常是不够的。我试过添加 X-Tika-Timeout-Millis header 但它的扩展不能超过服务器上设置的值。我怎样才 ...

尝试解析文本包含图像的 pdf 时使用 Apache tika 解析器的问题 - Issue using Apache tika parser when trying to parse pdf having text contains image

我正在使用这两个依赖项：- tika core 2.6.0 tika parser standard package 2.6.0.Parsing 在这些情况下工作正常：- pdf 带文本的文件。 pdf 带图像的文件。文本文件和其他扩展名。对于以下用例，解析失败并出现 pdfparser 运行 ...

Apache Tika 无法正确检测 MIME 类型 - Apache Tika cannot detect MIME type properly

我正在尝试使用Apache Tika上传文件时检测文件类型，如下所示：对于某些文件扩展名，例如*.acc ，Apache Tika 将文件类型检测为application/octet-stream 。所以，在这种情况下： 1.是否有正确检测某些文件类型（例如*.acc ）并获取其确切文件类型（ ...

Tika 中的最新 Tesseract - Latest Tesseract in Tika

Tesseract 的最新可用版本是 5.x。但最新的 tika 仍在使用 4.x。是否可以在 Tika 中升级 tesseractOCR 版本？ ...

打印word文档的标题（docx） - Print headings of a word document (docx)

在一个 docx 文档中，我希望能够获得一个包含文件中所有标题（章节）的列表。每个具有“标题 1”、“标题 2”等的文本。这是 word 文件：我正在使用 apache POI 读入文件。但是，当我尝试从段落或运行中获取样式时，它总是返回 NULL。 Output：所以问题是，如果我无 ...

Java Tika 无法从 rar 文件中获取嵌入文件 - Java Tika cannot get embedded files from rar file

使用标准实现，我传递了一个 doc 文件，其中有一个 image.png 图像和文本。使用标准实现，我传递了一个 doc 文件，其中有一个 image.png 图像和文本为了获取文件，Tika 使用了内部ParsingEmbeddedDocumentExtractor class，其中使用了par ...

如何在 Tika Core 中使用 Tika 解析器？ - How can I use Tika Parsers in Tika Core?

我在我的项目中使用 tika-core v.1.25：当我需要解析我的文件时，我使用 AutoDetectParser： AutoDetectParser 位于项目 tika-core：但同时，此 class AutoDetectParser 不与项目 tika-parsers 中的类交互。 ...

如何使上传的 PDF 文本在 Apache 吊索中可搜索 - How to make uploaded PDF text searchable in Apache Sling

我正在探索 Apache Sling 11 来构建更多内容驱动的 web 应用程序。我有一个页面，文件（pdf/txt/doc）可以作为nt-file上传到路径/content/company/uploads 。在搜索模块中，我使用 JCR 查询来搜索特定文本，并且我希望 PDF/TXT 文件中 ...

将img标签替换为对应ocr标签的文本 - Replace the img tag with the text of the corresponding ocr tag

我有一个 docx 文件，从中提取它包含的所有文本。该文件包含许多图像，多亏了 tika，我可以从文档中提取文本以及从图像中提取文本。我需要的是用相应的文本替换图像标签。我正在使用 python 和 beatifulsoup 来做到这一点。我把 xml 文件留在这里，看看是否有人可以帮 ...

如何在 Apache Tika 2.4.0 中启用调试日志 - How to enable debug logs in Apache Tika 2.4.0

想要在 Apache tika 容器中启用调试日志。尝试通过 tika-config.xml 遵循 Tika 配置配置，但没有看到打印任何调试日志。 ...

如何处理大pdf？ - How to deal with large pdf?

我正在尝试使用此代码从大型 pdf 中提取文本（我的文件来自 azure 上的 blob，pdf 需要 7.3mb，它有 140 页，它们都是图像）并且它总是达到超时。 os.environ['TIKA_SERVER_ENDPOINT'] = 'http://0.0.0.0:9998/' head ...

Tika 服务器在处理 pdf 文件时返回 500 状态码 - Tika server returned 500 status code when processing a pdf file

代码： tika .py 中的第 554 行相应的原因是 INKApi 错误。我在我的系统上运行 tika 服务器。 ...

无法使用 Lucee 通过 Apache Tika 提取文本 - Can not extract text via Apache Tika using Lucee

我想通过 Lucee 5+ (5.2.9) 从 pdf、docx 等中提取文本，但不幸的是我得到了空的结果集。我使用了几个可能适合我特定的 Lucee 和 Java 要求的Apache Tika 版本（Java 1.8.0 的可运行 jar），但结果集始终为空。提取物.cfc 以及我用来运 ...

如何进一步处理 Tika / PDFBox 无法解析但 Evince / Libre Office Draw 可以解析的错误/格式错误的 PDF？ - How to further process a buggy / malformed PDF that cannot be parsed by Tika / PDFBox but can by Evince / Libre Office Draw?

我的程序正在使用 Tika 2.24 读取文档以提取其内容。然而，尽管 Evince、Libre Office Draw 甚至 Gimp 可以打开它们，但某些 PDF（可能有错误或格式错误）无法由 PDFBox 处理。我无法共享这些 PDF，但我可以说的是，它们曾经触发StackOverFlo ...

无法使用 .net 从 tika api 获取图像内容 - Cannot get image content from tika api using .net

当我们从 postman 应用程序调用时，我们正在从 tika api(2.3.0) 获取图像内容。但是，当我们从 .net 代码调用时，相同的调用会返回其他内容。 Postman API 致电 .net 代码如下 .net代码返回200响应，output值如下：奇怪的是，它由 org.ap ...