[英]Read documents with Elastic Search
我有一個信息檢索任務,我必須使用 elasticSearch 來生成一些索引/排名。 我能夠下載 elasticSearch 並且它現在在http://localhost:9200/
上運行,但是如何讀取存儲在名為“ data
”的文件夾中的每個文檔?
Elasticsearch 只是一個搜索引擎。 為了使您的文檔和文件可搜索,您需要加載它們,提取所有相關數據並加載到 elasticsearch 中。
Apache Tika是一種從文件中提取數據的解決方案。 使用 Tika 編寫文件系統爬蟲。 然后使用 Rest API 來索引數據。
如果您不想重新發明輪子,請查看FSCrawler項目。 這是一篇博客文章,描述了如何解決您面臨的任務。
祝你好運!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.