![](/img/trans.png)
[英]How to use Elasticsearch bulk index with single JSON file in Python
[英]Index json files in bulk elasticsearch 5.6
我有一個包含約590,035個json
文件的文件夾。 每個文件都是必須索引的文檔。 如果我使用python為每個文檔編制索引,則將花費30多個小時。 如何快速索引這些文檔?
注意 -我見過大量的api,但這需要將所有文件合並為一個文件,所需的時間與上述時間相似。 請告訴我如何提高速度。 謝謝。
如果您確定I / O是您的瓶頸,請使用線程讀取文件,即使用ThreadPoolExecutor
進行存儲,以積累大量請求,或者一一保存。 在您使用唯一或內部ID之前,ES都不會有任何問題。
批量操作可以更快地完成工作,只需節省您的HTTP開銷,那么1比1的保存就更容易編碼了。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.