[英]elasticsearch attachment plugin performance improvement
我是 elasticsearch 的新手,試圖使用 elasticsearch 附件插件通過攝取管道解析 pdf 文件,但解析 pdf 似乎需要很多時間,具體取決於 pdf 大小 1MB=2sec,請 5MB=152sec,5MB 和 10MB ,建議如何改善這個執行時間?
PUT _ingest/pipeline/attachment
{
"description" : "Extract attachment information",
"processors" : [
{
"attachment" : {
"field" : "data"
}
}
]
}
PUT my-index-000001/_doc/my_id?pipeline=attachment
{
"data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}
謝謝
這是一項昂貴的操作並且會消耗資源,我會探索使用 FSCrawler ( https://fscrawler.readthedocs.io/en/fscrawler-2.9/ ) 或其他 Tika 庫從 ES 卸載整個操作; 您可能能夠在數據准備好索引之前並行完成很多事情或處理數據。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.