[英]Using Apache Solr with 'metadata' in Excel and files in DropBox
首先,为看似“业余”的场景和问题道歉......
情况
问题
我非常感谢任何帮助,因为我刚刚从付费顾问那里得到了许多不同的答案。
问候马克
你的问题:
问:Apache Solr 是提供搜索功能的最佳工具吗?
答:在我看来,Solr 是处理此类事情的绝佳选择。 但是,正如您所发现的那样,“需要一些组装”(这是客气的)
问:促进这一点的最佳设计是什么(例如 AWS S3 中的文件等)?
A:如果是我,我会使用文件系统。 我认为这是最容易调试的。
另外,如果是我,我会将 Excel 表导出到 CSV,我认为这样使用起来会更容易一些。 但是,Solr 确实包含开源 Tika 过滤器,它确实支持 Excel,但它们不会将您的多记录视为多文档; Tika 会将每张 Excel 工作表制作成一个文档。
问:从 excel/Dropbox 迁移到建议的 Apache solr 解决方案的最佳方法是什么?
A:我是本地文件系统的粉丝。 Dropbox 允许您将 Dropbox 文件镜像到本地目录。 正如我之前所说,如果您能够以某种自动化或“宏观”方式将 Excel 表导出到 CSV,我认为这也会让您的生活更轻松。 例如,Python 可以读取和写入 CSV 文件,是一种将数据发送到最终形式的出色工具。
如果您不介意商业解决方案,您可以考虑 Lucidworks Fusion; 它确实包括一堆连接器,包括一个文件系统数据源连接器。 免责声明:我碰巧为 Lucid 工作,但最后列出了这个建议,在“免费”答案之前。 无论如何我都会提到这一点,即使我没有在那里工作。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.