[英]Using Apache Solr with 'metadata' in Excel and files in DropBox
首先,為看似“業余”的場景和問題道歉......
情況
問題
我非常感謝任何幫助,因為我剛剛從付費顧問那里得到了許多不同的答案。
問候馬克
你的問題:
問:Apache Solr 是提供搜索功能的最佳工具嗎?
答:在我看來,Solr 是處理此類事情的絕佳選擇。 但是,正如您所發現的那樣,“需要一些組裝”(這是客氣的)
問:促進這一點的最佳設計是什么(例如 AWS S3 中的文件等)?
A:如果是我,我會使用文件系統。 我認為這是最容易調試的。
另外,如果是我,我會將 Excel 表導出到 CSV,我認為這樣使用起來會更容易一些。 但是,Solr 確實包含開源 Tika 過濾器,它確實支持 Excel,但它們不會將您的多記錄視為多文檔; Tika 會將每張 Excel 工作表制作成一個文檔。
問:從 excel/Dropbox 遷移到建議的 Apache solr 解決方案的最佳方法是什么?
A:我是本地文件系統的粉絲。 Dropbox 允許您將 Dropbox 文件鏡像到本地目錄。 正如我之前所說,如果您能夠以某種自動化或“宏觀”方式將 Excel 表導出到 CSV,我認為這也會讓您的生活更輕松。 例如,Python 可以讀取和寫入 CSV 文件,是一種將數據發送到最終形式的出色工具。
如果您不介意商業解決方案,您可以考慮 Lucidworks Fusion; 它確實包括一堆連接器,包括一個文件系統數據源連接器。 免責聲明:我碰巧為 Lucid 工作,但最后列出了這個建議,在“免費”答案之前。 無論如何我都會提到這一點,即使我沒有在那里工作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.