簡體 English 中英

Elasticsearch附件插件與自己的Tika實現

[英]Elasticsearch attachment plugin vs own tika implementation

原文 2016-11-06 17:53:01 8 2 elasticsearch/ apache-tika

我想使用Tika工具包來索引文檔文件（pdf，docx ...）和圖像（通過tesseract插件）的內容。

我嘗試了彈性攝取附件插件（ https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html ），它工作得很好，但是沒有內置OCR。 而且我必須發送我的文件的base64，因此高內存使用率+彈性索引對“ data”（base64）字段毫無用處。

我正在考慮直接使用Tika工具包，然后在ElasticSearch中索引內容。

所以我想知道這是否是更好的方法？

2 個解決方案

我們創建了一個處理文件的系統（抓取-> OCR->索引->搜索）。 叫做Ambar 。 我們構想的目的是為攝取附件創建一個良好而可靠的替代品。

作為搜索引擎，我們使用ElasticSearch作為上下文提取器：Tika + Tesseract + ImageMagick +用於PDF的自定義提取器。

我們為自己的Tika + ES實現提供了一個簡單但功能強大的替代方案。

查閱Github以獲得更多詳細信息。

在撰寫本文時，elasticsearch elasticsearch-mapper-attachments插件中幾乎沒有關於通過Tesseract啟用OCR的文檔。

一切都指向您在Elasticsearch之外處理OCR的任務，然后分別索引內容。

參考： https : //github.com/elastic/elasticsearch-mapper-attachments/issues/10

安裝Elasticsearch Mapper附件插件

[英]Install elasticsearch mapper attachment plugin

elasticsearch 附件插件性能改進

[英]elasticsearch attachment plugin performance improvement

在 ElasticSearch 中攝取附件插件時出錯 (NoClassDefFoundError)

[英]Error in ingest attachment plugin in ElasticSearch (NoClassDefFoundError)

配置ElasticSearch附件映射器以使用OCR插件

[英]Configure ElasticSearch attachment mapper to use OCR plugin

無法安裝我自己的ElasticSearch插件

[英]Can't install my own ElasticSearch plugin

如何使用Elasticsearch ingest-attachment插件索引pdf文件？

[英]How to index a pdf file using Elasticsearch ingest-attachment plugin?

ElasticSearch 5.0.0攝取附件插件問題將PDF編入索引

[英]ElasticSearch 5.0.0 ingest-attachment plugin issues to index PDF

如何允許使用附件插件在 Elasticsearch 中使用空格字符進行搜索？

[英]How to allow searching with spacial character in Elasticsearch using Attachment plugin?

如何使用ingest-attachment插件索引Elasticsearch 5.0.0中的pdf文件？

[英]How to index a pdf file in Elasticsearch 5.0.0 with ingest-attachment plugin?

如何在 Java 中使用 Elasticsearch Ingest 附件處理器插件

[英]How to use Elasticsearch Ingest Attachment Processor Plugin in Java

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 安裝Elasticsearch Mapper附件插件 elasticsearch 附件插件性能改進在 ElasticSearch 中攝取附件插件時出錯 (NoClassDefFoundError) 配置ElasticSearch附件映射器以使用OCR插件無法安裝我自己的ElasticSearch插件如何使用Elasticsearch ingest-attachment插件索引pdf文件？ ElasticSearch 5.0.0攝取附件插件問題將PDF編入索引如何允許使用附件插件在 Elasticsearch 中使用空格字符進行搜索？如何使用ingest-attachment插件索引Elasticsearch 5.0.0中的pdf文件？如何在 Java 中使用 Elasticsearch Ingest 附件處理器插件

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM