[英]Elasticsearch attachment plugin vs own tika implementation
我想使用Tika工具包來索引文檔文件(pdf,docx ...)和圖像(通過tesseract插件)的內容。
我嘗試了彈性攝取附件插件( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html ),它工作得很好,但是沒有內置OCR。 而且我必須發送我的文件的base64,因此高內存使用率+彈性索引對“ data”(base64)字段毫無用處。
我正在考慮直接使用Tika工具包,然后在ElasticSearch中索引內容。
所以我想知道這是否是更好的方法?
在撰寫本文時,elasticsearch elasticsearch-mapper-attachments
插件中幾乎沒有關於通過Tesseract啟用OCR的文檔。
一切都指向您在Elasticsearch之外處理OCR的任務,然后分別索引內容。
參考: https : //github.com/elastic/elasticsearch-mapper-attachments/issues/10
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.