簡體   English   中英

Elasticsearch附件插件與自己的Tika實現

[英]Elasticsearch attachment plugin vs own tika implementation

我想使用Tika工具包來索引文檔文件(pdf,docx ...)和圖像(通過tesseract插件)的內容。

我嘗試了彈性攝取附件插件( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html ),它工作得很好,但是沒有內置OCR。 而且我必須發送我的文件的base64,因此高內存使用率+彈性索引對“ data”(base64)字段毫無用處。

我正在考慮直接使用Tika工具包,然后在ElasticSearch中索引內容。

所以我想知道這是否是更好的方法?

我們創建了一個處理文件的系統(抓取-> OCR->索引->搜索)。 叫做Ambar 我們構想的目的是為攝取附件創建一個良好而可靠的替代品。

作為搜索引擎,我們使用ElasticSearch作為上下文提取器:Tika + Tesseract + ImageMagick +用於PDF的自定義提取器。

我們為自己的Tika + ES實現提供了一個簡單但功能強大的替代方案。

查閱Github以獲得更多詳細信息。

在撰寫本文時,elasticsearch elasticsearch-mapper-attachments插件中幾乎沒有關於通過Tesseract啟用OCR的文檔。

一切都指向您在Elasticsearch之外處理OCR的任務,然后分別索引內容。

參考: https : //github.com/elastic/elasticsearch-mapper-attachments/issues/10

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM