簡體   English   中英

elasticsearch 附件插件性能改進

[英]elasticsearch attachment plugin performance improvement

我是 elasticsearch 的新手,試圖使用 elasticsearch 附件插件通過攝取管道解析 pdf 文件,但解析 pdf 似乎需要很多時間,具體取決於 pdf 大小 1MB=2sec,請 5MB=152sec,5MB 和 10MB ,建議如何改善這個執行時間?

PUT _ingest/pipeline/attachment
{
 "description" : "Extract attachment information",
 "processors" : [
 {
  "attachment" : {
    "field" : "data"
  }
 }
]
}

PUT my-index-000001/_doc/my_id?pipeline=attachment
{
 "data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}

謝謝

這是一項昂貴的操作並且會消耗資源,我會探索使用 FSCrawler ( https://fscrawler.readthedocs.io/en/fscrawler-2.9/ ) 或其他 Tika 庫從 ES 卸載整個操作; 您可能能夠在數據准備好索引之前並行完成很多事情或處理數據。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM