我正在尝试使用 Python 中的 Tika 从 PDF 中提取特定信息。我尝试将正则表达式合并到代码中,但它返回错误。 这是我的代码: 返回错误如下: 是否有修复错误的解决方案以及可以将正则表达式传递到代码中的方法? ...
我正在尝试使用 Python 中的 Tika 从 PDF 中提取特定信息。我尝试将正则表达式合并到代码中,但它返回错误。 这是我的代码: 返回错误如下: 是否有修复错误的解决方案以及可以将正则表达式传递到代码中的方法? ...
尝试在 Jmeter 中创建工作簿时出现错误。我正在使用“tika-app.jar”创建工作簿后,我想在 excel xlx 文件中写入数据。 下面是我的 JSR223 采样器: 我得到的错误响应如下: 有人可以帮忙吗 ...
我在 JMeter 5.5 中有 groovy 代码,它采用 Excel 模板,然后用数据填充它。 由于 tika-app 库中的安全漏洞,我们被要求升级到更新版本的 tika-app。 但是,当我们升级到高于 1.28.1 的 tika-app 版本时,我们的代码会生成 excel 文件,但被测系 ...
我有一个正在运行的设置,我可以在其中提取 Solr(8.11.2 和 tika 1.27)并从 Tesseract (5.2.0) 获取 OCR。 为此,我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties 我现在正在尝试使用 sol ...
我有一个巨大的 URL 列表,每个 URL 加载不同的 PDF 文档。 这是其中之一: https://ccmspa.pinellascounty.org/PublicAccess/ViewDocumentFragment.aspx?DocumentFragmentID=74223655&C ...
在最新的 Tika:2.5 中,默认 OCR 超时为 300 - 如果多个并行处理的文档或图像执行 OCR 会导致 Tika OCR 超时,因此 Tika 对完整文档的异常是不够的。 我试过添加 X-Tika-Timeout-Millis header 但它的扩展不能超过服务器上设置的值。 我怎样才 ...
我正在使用这两个依赖项:- tika core 2.6.0 tika parser standard package 2.6.0.Parsing 在这些情况下工作正常:- pdf 带文本的文件。 pdf 带图像的文件。 文本文件和其他扩展名。 对于以下用例,解析失败并出现 pdfparser 运行 ...
我正在尝试使用Apache Tika上传文件时检测文件类型,如下所示: 对于某些文件扩展名,例如*.acc ,Apache Tika 将文件类型检测为application/octet-stream 。 所以,在这种情况下: 1.是否有正确检测某些文件类型(例如*.acc )并获取其确切文件类型( ...
Tesseract 的最新可用版本是 5.x。 但最新的 tika 仍在使用 4.x。 是否可以在 Tika 中升级 tesseractOCR 版本? ...
在一个 docx 文档中,我希望能够获得一个包含文件中所有标题(章节)的列表。 每个具有“标题 1”、“标题 2”等的文本。这是 word 文件: 我正在使用 apache POI 读入文件。 但是,当我尝试从段落或运行中获取样式时,它总是返回 NULL。 Output: 所以问题是,如果我无 ...
使用标准实现,我传递了一个 doc 文件,其中有一个 image.png 图像和文本。 使用标准实现,我传递了一个 doc 文件,其中有一个 image.png 图像和文本为了获取文件,Tika 使用了内部ParsingEmbeddedDocumentExtractor class,其中使用了par ...
我在我的项目中使用 tika-core v.1.25: 当我需要解析我的文件时,我使用 AutoDetectParser: AutoDetectParser 位于项目 tika-core: 但同时,此 class AutoDetectParser 不与项目 tika-parsers 中的类交互。 ...
我正在探索 Apache Sling 11 来构建更多内容驱动的 web 应用程序。 我有一个页面,文件(pdf/txt/doc)可以作为nt-file上传到路径/content/company/uploads 。 在搜索模块中,我使用 JCR 查询来搜索特定文本,并且我希望 PDF/TXT 文件中 ...
我有一个 docx 文件,从中提取它包含的所有文本。 该文件包含许多图像,多亏了 tika,我可以从文档中提取文本以及从图像中提取文本。 我需要的是用相应的文本替换图像标签。 我正在使用 python 和 beatifulsoup 来做到这一点。 我把 xml 文件留在这里,看看是否有人可以帮 ...
想要在 Apache tika 容器中启用调试日志。 尝试通过 tika-config.xml 遵循 Tika 配置配置,但没有看到打印任何调试日志。 ...
我正在尝试使用此代码从大型 pdf 中提取文本(我的文件来自 azure 上的 blob,pdf 需要 7.3mb,它有 140 页,它们都是图像)并且它总是达到超时。 os.environ['TIKA_SERVER_ENDPOINT'] = 'http://0.0.0.0:9998/' head ...
代码 : tika .py 中的第 554 行 相应的原因是 INKApi 错误。 我在我的系统上运行 tika 服务器。 ...
我想通过 Lucee 5+ (5.2.9) 从 pdf、docx 等中提取文本,但不幸的是我得到了空的结果集。 我使用了几个可能适合我特定的 Lucee 和 Java 要求的Apache Tika 版本(Java 1.8.0 的可运行 jar),但结果集始终为空。 提取物.cfc 以及我用来运 ...
我的程序正在使用 Tika 2.24 读取文档以提取其内容。 然而,尽管 Evince、Libre Office Draw 甚至 Gimp 可以打开它们,但某些 PDF(可能有错误或格式错误)无法由 PDFBox 处理。 我无法共享这些 PDF,但我可以说的是,它们曾经触发StackOverFlo ...
当我们从 postman 应用程序调用时,我们正在从 tika api(2.3.0) 获取图像内容。 但是,当我们从 .net 代码调用时,相同的调用会返回其他内容。 Postman API 致电 .net 代码如下 .net代码返回200响应,output值如下: 奇怪的是,它由 org.ap ...