簡體   English   中英

將 Apache Solr 與 Excel 中的“元數據”和 DropBox 中的文件一起使用

[英]Using Apache Solr with 'metadata' in Excel and files in DropBox

首先,為看似“業余”的場景和問題道歉......

情況

  • 我有很多很多文檔(100,000 個),我需要用戶能夠通過我們正在構建的 web 應用程序搜索和瀏覽
  • 此搜索功能只是其他幾個功能之一
  • 我目前有大約十幾個 excel 電子表格,其中包含“元數據”(標題、日期、作者、來源、國家等)或文檔信息
  • 100,000 條“記錄”(或 excel 行)中的每一條都有一個唯一標識符
  • 實際文件(大部分是 PDF,但也有一些 Word 和 Excel)使用相應的唯一標識符作為文件名存儲在 Dropbox 中

問題

  • Apache Solr 是提供搜索功能的最佳工具嗎?
  • 促進這一點的最佳設計是什么(例如 AWS S3 中的文件等)?
  • 從 excel/Dropbox 遷移到建議的 Apache solr 解決方案的最佳方法是什么?

我非常感謝任何幫助,因為我剛剛從付費顧問那里得到了許多不同的答案。

問候馬克

你的問題:

問:Apache Solr 是提供搜索功能的最佳工具嗎?

答:在我看來,Solr 是處理此類事情的絕佳選擇。 但是,正如您所發現的那樣,“需要一些組裝”(這是客氣的)

問:促進這一點的最佳設計是什么(例如 AWS S3 中的文件等)?

A:如果是我,我會使用文件系統。 我認為這是最容易調試的。

另外,如果是我,我會將 Excel 表導出到 CSV,我認為這樣使用起來會更容易一些。 但是,Solr 確實包含開源 Tika 過濾器,它確實支持 Excel,但它們不會將您的多記錄視為多文檔; Tika 會將每張 Excel 工作表制作成一個文檔。

問:從 excel/Dropbox 遷移到建議的 Apache solr 解決方案的最佳方法是什么?

A:我是本地文件系統的粉絲。 Dropbox 允許您將 Dropbox 文件鏡像到本地目錄。 正如我之前所說,如果您能夠以某種自動化或“宏觀”方式將 Excel 表導出到 CSV,我認為這也會讓您的生活更輕松。 例如,Python 可以讀取和寫入 CSV 文件,是一種將數據發送到最終形式的出色工具。

如果您不介意商業解決方案,您可以考慮 Lucidworks Fusion; 它確實包括一堆連接器,包括一個文件系統數據源連接器。 免責聲明:我碰巧為 Lucid 工作,但最后列出了這個建議,在“免費”答案之前。 無論如何我都會提到這一點,即使我沒有在那里工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM