![](/img/trans.png)
[英]I want to randomly train 60% out of 100%, remaining 40% for testing in Confusion Matrix
[英]I want to know the Confusion matrix Steps
我已經完成了具有余弦相似度的計數向量器。 接下來,我希望混淆矩陣得到精確度和准確度
但我不知道該怎么做我真的很感謝你的回答,即使它們只是步驟
讓我知道它是否錯誤/沒有描述問題
代碼計數矢量化器
c_vectorizer = CountVectorizer()
c_vectorized = c_vectorizer.fit_transform(dataset_with_tags.movie_tags)
c_vectorized_m2m = pd.DataFrame(cosine_similarity(c_vectorized))
c_vectorized_m2m.head(10)
c_vectorized_m2m_similarity = c_vectorized_m2m.stack().reset_index()
c_vectorized_m2m_similarity.columns = ['first_movie', 'second_movie', 'similarity_score']
c_vectorized_m2m_similarity.head(10)
您似乎對混淆矩陣感到困惑:當您可以比較分類問題的實際值與預測值時使用它,從而為您提供關於是否正確識別類別的絕對真理(TRUE/FALSE)。 例如,如何使用分類器從結果中生成混淆矩陣。
https://en.wikipedia.org/wiki/Confusion_matrix
相似矩陣不分類,它們只是為您提供從 0 到 1 的連續值,表示 2 個事物的相似程度。 沒有分類,因此您不能使用混淆矩陣。
無論您是想使用相似度矩陣(兩個項目的相似程度)還是分類器(例如電影是“喜劇”還是“戲劇”,電影都可以有多種類型,例如“浪漫喜劇”,因此您需要一個多類分類器),您需要一些測試數據來評估您的 model 的性能:
movie_tags
是准確的,您可以使用它們來訓練您的分類器,並預測不在您的數據集中的電影的標簽(您以后可以隨時使用相似度矩陣根據這些預測標簽推薦相似的電影)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.