[英]Read documents with Elastic Search
我有一个信息检索任务,我必须使用 elasticSearch 来生成一些索引/排名。 我能够下载 elasticSearch 并且它现在在http://localhost:9200/
上运行,但是如何读取存储在名为“ data
”的文件夹中的每个文档?
Elasticsearch 只是一个搜索引擎。 为了使您的文档和文件可搜索,您需要加载它们,提取所有相关数据并加载到 elasticsearch 中。
Apache Tika是一种从文件中提取数据的解决方案。 使用 Tika 编写文件系统爬虫。 然后使用 Rest API 来索引数据。
如果您不想重新发明轮子,请查看FSCrawler项目。 这是一篇博客文章,描述了如何解决您面临的任务。
祝你好运!
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.