簡體 English 中英

當我只有總文件的子集時，如何應用TF-IDF？

[英]How Do I Apply TF-IDF When I Only Have a Subset of the Total Documents?

原文 2018-06-01 03:56:30 8 1 database/ elasticsearch/ search/ tf-idf

實際應用：

我有幾個數據庫需要從一個搜索框中查詢。 其中一些我可以直接訪問（他們是SQL Server / MySQL），其他我只能通過API搜索。

在理想的世界中，我會將所有這些數據注入Elasticsearch並使用它來確定相關性。 不幸的是，我沒有本地資源來提高運行效率。 Elastic正在空閑時占用400mb的RAM而不添加任何實際數據或運行查詢。 看起來大多數在生產中使用Elasticsearch的人都在運行具有32GB-64GB RAM的機器。 我的組織無法訪問該項目可用的強大功能。

所以我的下一個想法是查詢所有數據庫並在用戶進行搜索時連接到API。 然后我需要分析結果，確定相關性，並將它們返回給用戶。 我認識到這可能是一個糟糕的性能計划。 我希望使用memcached來使事情更容易忍受。

在我找到確定相關性的算法的研究中，我遇到了tf-idf。 我希望將此應用於我從所有數據庫中返回的結果。

實際的問題

我對tf-idf的理解是，在對語料庫中的每個文檔進行標記后，執行術語頻率分析，然后將其與單詞的逆文檔頻率相乘。 通過將總文檔計數除以具有該術語的文檔總數來計算逆文檔頻率。

這樣做的問題是，如果我從API中提取文檔，我不知道語料庫中文檔的真實總數。 我只是拉了一個子集，根據這些文件被拉出來的方式，他們自然會使用它們中的所有術語。 我是否仍然可以通過將這些不同來源返回的文檔池視為單個語料庫來應用tf-idf？ 最好的方法是什么？

獎金問題

如果你有一個關於如何實現這一目標的建議，而不是將我自己的搜索解決方案或使用Elasticsearch混淆在一起，我會全力以赴......

1 個解決方案

正如您所注意到的，Elasticsearch不是為在內存受限的環境中運行而構建的。 如果您想使用Elasticsearch，但無法設置專用計算機，則可以考慮使用托管搜索解決方案（例如AWS Elasticsearch，Elastic Cloud，Algolia等）。 這些解決方案仍然需要花費

有兩個很好的選擇需要更多的工作（但不如編寫自己的搜索解決方案）。 Lucene是Elasticsearch編寫的實際搜索引擎。 它仍然會將相當多的底層數據結構加載到內存中，因此，根據您要索引的基礎數據的大小，它仍然可能會耗盡內存。 但是，您應該能夠在單個Lucene索引中使用比在整個Elasticsearch實例中更多的數據。

我知道的另一種選擇是Sphinx。 它也是一個搜索引擎。 它還允許您指定要為其使用分配的內存量。 它將其余數據存儲在磁盤上。

如何查詢具有空白列表的文檔？

[英]How do I query for documents that have a blank list?

在Mongo中，我如何找到所有文檔，但僅顯示其標題？

[英]In Mongo, how do I find all the documents, but display only their titles?

如何查詢ActiveModel記錄的子集？

[英]How do I query on a subset of ActiveModel records?

如何在表上放置約束以確保表的子集中只有一個布爾列為真？

[英]How do I put a constraint on a table to ensure only one boolean column across a subset of tables is true?

使用聚合時如何在運行限制之前獲取記錄總數

[英]How do I get the total number of records before I run limit when using Aggregation

如何修改此查詢以添加一個新字段，其中包含原始記錄總數的子集的某個字段的最大值？

[英]How can I modify this query to add a new field containing the maximum value of a field of a subset of the total original records?

如何有選擇地調用此 APOC 程序？（僅在節點的子集上）

[英]How can I call this APOC procedure selectively? (only on a subset of nodes)

在Visual Studio中創建數據庫項目后，如果編輯存儲過程或視圖，如何將更改應用到服務器？

[英]Once I have a database project in Visual Studio, if I edit a stored procedure or view, how do I apply the changes to the server?

何時以及如何在Grails中創建索引？

[英]When and how do I have to create an Index in Grails?

我如何限制 Firebase 中帶有 Flutter 日期的文檔數量

[英]How do i limit the number of documents from Firebase with dates in Flutter

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何查詢具有空白列表的文檔？在Mongo中，我如何找到所有文檔，但僅顯示其標題？如何查詢ActiveModel記錄的子集？如何在表上放置約束以確保表的子集中只有一個布爾列為真？使用聚合時如何在運行限制之前獲取記錄總數如何修改此查詢以添加一個新字段，其中包含原始記錄總數的子集的某個字段的最大值？如何有選擇地調用此 APOC 程序？（僅在節點的子集上）在Visual Studio中創建數據庫項目后，如果編輯存儲過程或視圖，如何將更改應用到服務器？何時以及如何在Grails中創建索引？我如何限制 Firebase 中帶有 Flutter 日期的文檔數量

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM