繁体   English   中英

将 Apache Solr 与 Excel 中的“元数据”和 DropBox 中的文件一起使用

[英]Using Apache Solr with 'metadata' in Excel and files in DropBox

首先,为看似“业余”的场景和问题道歉......

情况

  • 我有很多很多文档(100,000 个),我需要用户能够通过我们正在构建的 web 应用程序搜索和浏览
  • 此搜索功能只是其他几个功能之一
  • 我目前有大约十几个 excel 电子表格,其中包含“元数据”(标题、日期、作者、来源、国家等)或文档信息
  • 100,000 条“记录”(或 excel 行)中的每一条都有一个唯一标识符
  • 实际文件(大部分是 PDF,但也有一些 Word 和 Excel)使用相应的唯一标识符作为文件名存储在 Dropbox 中

问题

  • Apache Solr 是提供搜索功能的最佳工具吗?
  • 促进这一点的最佳设计是什么(例如 AWS S3 中的文件等)?
  • 从 excel/Dropbox 迁移到建议的 Apache solr 解决方案的最佳方法是什么?

我非常感谢任何帮助,因为我刚刚从付费顾问那里得到了许多不同的答案。

问候马克

你的问题:

问:Apache Solr 是提供搜索功能的最佳工具吗?

答:在我看来,Solr 是处理此类事情的绝佳选择。 但是,正如您所发现的那样,“需要一些组装”(这是客气的)

问:促进这一点的最佳设计是什么(例如 AWS S3 中的文件等)?

A:如果是我,我会使用文件系统。 我认为这是最容易调试的。

另外,如果是我,我会将 Excel 表导出到 CSV,我认为这样使用起来会更容易一些。 但是,Solr 确实包含开源 Tika 过滤器,它确实支持 Excel,但它们不会将您的多记录视为多文档; Tika 会将每张 Excel 工作表制作成一个文档。

问:从 excel/Dropbox 迁移到建议的 Apache solr 解决方案的最佳方法是什么?

A:我是本地文件系统的粉丝。 Dropbox 允许您将 Dropbox 文件镜像到本地目录。 正如我之前所说,如果您能够以某种自动化或“宏观”方式将 Excel 表导出到 CSV,我认为这也会让您的生活更轻松。 例如,Python 可以读取和写入 CSV 文件,是一种将数据发送到最终形式的出色工具。

如果您不介意商业解决方案,您可以考虑 Lucidworks Fusion; 它确实包括一堆连接器,包括一个文件系统数据源连接器。 免责声明:我碰巧为 Lucid 工作,但最后列出了这个建议,在“免费”答案之前。 无论如何我都会提到这一点,即使我没有在那里工作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM