如何使用tf-idf和余弦相似度構建推薦系統？

Question

我一直在嘗試構建啤酒推薦引擎，因此我決定僅使用tf-idf和Cosine相似度來使其成功。

到目前為止，這是我的代碼：

import pandas as pd     
import re
import numpy as np 
from bs4 import BeautifulSoup 
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
wnlzer = WordNetLemmatizer()


train = pd.read_csv("labeledTrainData.tsv" , header = 0 ,  \
    delimiter = '\t' , quoting  = 3)


def raw_string_to_list_clean_string( raw_train_review ):
    remove_html = BeautifulSoup( raw_train_review ).text
    remove_punch = re.sub('[^A-Za-z ]' , "" , remove_html)
    token = remove_punch.lower().split()
    srm_token = [wnlzer.lemmatize(i) for i in token if not i in set(stopwords.words('english'))]
    clean_text = " ".join(srm_token)
    return(clean_text)

ready_train_list = []
length  = len(train['review'])
for i in range(0 , length):
    if (i%100 == 0):
        print "doing  %d of  %d of training data set" % (i+1 , length)
    a = raw_string_to_list_clean_string(train['review'][i])
    ready_train_list.append(a)

vectorizer = TfidfVectorizer(analyzer = "word" , tokenizer = None , preprocessor = None , \
    stop_words = None , max_features = 20000)
training_our_vectorizer = vectorizer.fit_transform(ready_train_list)`

現在，我知道如何使用余弦相似度，但是我無法弄清楚：

如何利用余弦
如何將建議限制為最多5杯啤酒

Answer 1

一個簡單的實現是使用cdist計算到其他啤酒的距離，然后使用argsort返回您的建議：

from scipy.spatial.distance import cdist
import numpy as np

vec = TfidfVectorizer()
beerlist = np.array(['heinekin lager', 'corona lager', 'heinekin ale', 'budweiser lager'])
beerlist_tfidf = vec.fit_transform(beerlist).toarray()
beer_tfidf = vec.transform(['heinekin lager']).toarray()
rec_idx = cdist(beer_tfidf, beerlist_tfidf, 'cosine').argsort()
print(beerlist[rec_idx[0][1:]])

#['heinekin ale' 'corona lager' 'budweiser lager']

如何使用tf-idf和余弦相似度構建推薦系統？

問題描述

1 個解決方案

解決方案1
0 2016-08-11 06:34:29

如何使用tf-idf和余弦相似度構建推薦系統？

問題描述

1 個解決方案

解決方案1 0 2016-08-11 06:34:29

解決方案1
0 2016-08-11 06:34:29