我想知道混淆矩陣步驟

Question

我已經完成了具有余弦相似度的計數向量器。 接下來，我希望混淆矩陣得到精確度和准確度

但我不知道該怎么做我真的很感謝你的回答，即使它們只是步驟

讓我知道它是否錯誤/沒有描述問題

代碼計數矢量化器

    c_vectorizer = CountVectorizer()
    c_vectorized = c_vectorizer.fit_transform(dataset_with_tags.movie_tags)
    c_vectorized_m2m = pd.DataFrame(cosine_similarity(c_vectorized))
    c_vectorized_m2m.head(10)

    c_vectorized_m2m_similarity = c_vectorized_m2m.stack().reset_index()
    c_vectorized_m2m_similarity.columns = ['first_movie', 'second_movie', 'similarity_score']
    c_vectorized_m2m_similarity.head(10)

Answer 1

您似乎對混淆矩陣感到困惑：當您可以比較分類問題的實際值與預測值時使用它，從而為您提供關於是否正確識別類別的絕對真理（TRUE/FALSE）。 例如，如何使用分類器從結果中生成混淆矩陣。

https://en.wikipedia.org/wiki/Confusion_matrix

相似矩陣不分類，它們只是為您提供從 0 到 1 的連續值，表示 2 個事物的相似程度。 沒有分類，因此您不能使用混淆矩陣。

無論您是想使用相似度矩陣（兩個項目的相似程度）還是分類器（例如電影是“喜劇”還是“戲劇”，電影都可以有多種類型，例如“浪漫喜劇”，因此您需要一個多類分類器），您需要一些測試數據來評估您的 model 的性能：

相似度矩陣：相似/不同的電影列表，並期望您的矩陣分別返回接近 1/0 的值
分類器：假設您的數據集中的movie_tags是准確的，您可以使用它們來訓練您的分類器，並預測不在您的數據集中的電影的標簽（您以后可以隨時使用相似度矩陣根據這些預測標簽推薦相似的電影）。

我想知道混淆矩陣步驟

問題描述

1 個解決方案

解決方案1
0 已采納 2021-05-23 08:53:10

我想知道混淆矩陣步驟

問題描述

1 個解決方案

解決方案1 0 已采納 2021-05-23 08:53:10

解決方案1
0 已采納 2021-05-23 08:53:10