簡體 English 中英

基於內容的推薦引擎，在eclipse上使用mahout

[英]Content based recommender engine using mahout on eclipse

原文 2018-04-18 15:40:56 4 1 java/ mahout/ recommendation-engine/ mahout-recommender

在eclipse / java上使用Mahout制作基於內容的推薦器系統是否有分步教程？

我已經嘗試過與Mahout一起工作，並且能夠構建一個協作系統，但是我想嘗試基於內容，因此，我讀了有關制作自定義ItemSimilarity方法的信息，而我最近才發現Mahout的RowSimilarityJob，對於使用mahout而言相對較新的人可以幫助我出來如何使用該功能？

1 個解決方案

實際上，itemSimilarity的工作是：1）在即將淘汰的Hadoop MapReduce舊代碼中，以及2）以相當簡單的方式找到2個相似的文檔。 這項工作有一個新的Spark版本，稱為spark itemSimilarity ，其功能大致相同，但僅支持LLR得分以實現相似性。

除非您將其合並到更大，更復雜的推薦器中，否則我建議您只使用Elasticsearch或Solr來按內容查找相似的項目。 他們擁有更加靈活的健壯方法。 它們的核心都使用Lucene，即傑出的knn引擎（k近鄰）來處理稀疏數據。

給定一個具有多個內容字段的項目，KNN是您想要的算法類型，哪個項目最相似？

Elasticsearch和Solr還具有高性能和高度可擴展的服務器。 另外，他們不需要持續的培訓。 只需為每個項目添加一個新文檔，它們就會遞增索引，因此查詢結果最終將包括較新的文檔，而無需進行任何培訓。

但是請注意，如果您擁有正確的數據，則基於內容的建議很少會比“協同過濾”好。 可以說，現代多模式CF推薦器的最佳開源示例是通用推薦器（基於Mahout和Apache PredictionIO），網址為： http : //actionml.com/docs/ur