繁体 English 中英

Elasticsearch附件插件与自己的Tika实现

[英]Elasticsearch attachment plugin vs own tika implementation

原文 2016-11-06 17:53:01 4 2 elasticsearch/ apache-tika

我想使用Tika工具包来索引文档文件（pdf，docx ...）和图像（通过tesseract插件）的内容。

我尝试了弹性摄取附件插件（ https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html ），它工作得很好，但是没有内置OCR。 而且我必须发送我的文件的base64，因此高内存使用率+弹性索引对“ data”（base64）字段毫无用处。

我正在考虑直接使用Tika工具包，然后在ElasticSearch中索引内容。

所以我想知道这是否是更好的方法？

2 个解决方案

我们创建了一个处理文件的系统（抓取-> OCR->索引->搜索）。 叫做Ambar 。 我们构想的目的是为摄取附件创建一个良好而可靠的替代品。

作为搜索引擎，我们使用ElasticSearch作为上下文提取器：Tika + Tesseract + ImageMagick +用于PDF的自定义提取器。

我们为自己的Tika + ES实现提供了一个简单但功能强大的替代方案。

查阅Github以获得更多详细信息。

在撰写本文时，elasticsearch elasticsearch-mapper-attachments插件中几乎没有关于通过Tesseract启用OCR的文档。

一切都指向您在Elasticsearch之外处理OCR的任务，然后分别索引内容。

参考： https : //github.com/elastic/elasticsearch-mapper-attachments/issues/10

安装Elasticsearch Mapper附件插件

[英]Install elasticsearch mapper attachment plugin

elasticsearch 附件插件性能改进

[英]elasticsearch attachment plugin performance improvement

在 ElasticSearch 中摄取附件插件时出错 (NoClassDefFoundError)

[英]Error in ingest attachment plugin in ElasticSearch (NoClassDefFoundError)

配置ElasticSearch附件映射器以使用OCR插件

[英]Configure ElasticSearch attachment mapper to use OCR plugin

无法安装我自己的ElasticSearch插件

[英]Can't install my own ElasticSearch plugin

如何使用Elasticsearch ingest-attachment插件索引pdf文件？

[英]How to index a pdf file using Elasticsearch ingest-attachment plugin?

ElasticSearch 5.0.0摄取附件插件问题将PDF编入索引

[英]ElasticSearch 5.0.0 ingest-attachment plugin issues to index PDF

如何允许使用附件插件在 Elasticsearch 中使用空格字符进行搜索？

[英]How to allow searching with spacial character in Elasticsearch using Attachment plugin?

如何使用ingest-attachment插件索引Elasticsearch 5.0.0中的pdf文件？

[英]How to index a pdf file in Elasticsearch 5.0.0 with ingest-attachment plugin?

如何在 Java 中使用 Elasticsearch Ingest 附件处理器插件

[英]How to use Elasticsearch Ingest Attachment Processor Plugin in Java

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 安装Elasticsearch Mapper附件插件 elasticsearch 附件插件性能改进在 ElasticSearch 中摄取附件插件时出错 (NoClassDefFoundError) 配置ElasticSearch附件映射器以使用OCR插件无法安装我自己的ElasticSearch插件如何使用Elasticsearch ingest-attachment插件索引pdf文件？ ElasticSearch 5.0.0摄取附件插件问题将PDF编入索引如何允许使用附件插件在 Elasticsearch 中使用空格字符进行搜索？如何使用ingest-attachment插件索引Elasticsearch 5.0.0中的pdf文件？如何在 Java 中使用 Elasticsearch Ingest 附件处理器插件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM