簡體   English   中英

我想知道混淆矩陣步驟

[英]I want to know the Confusion matrix Steps

我已經完成了具有余弦相似度的計數向量器。 接下來,我希望混淆矩陣得到精確度和准確度

但我不知道該怎么做我真的很感謝你的回答,即使它們只是步驟

讓我知道它是否錯誤/沒有描述問題

代碼計數矢量化器

    c_vectorizer = CountVectorizer()
    c_vectorized = c_vectorizer.fit_transform(dataset_with_tags.movie_tags)
    c_vectorized_m2m = pd.DataFrame(cosine_similarity(c_vectorized))
    c_vectorized_m2m.head(10)

在此處輸入圖像描述

    c_vectorized_m2m_similarity = c_vectorized_m2m.stack().reset_index()
    c_vectorized_m2m_similarity.columns = ['first_movie', 'second_movie', 'similarity_score']
    c_vectorized_m2m_similarity.head(10)

在此處輸入圖像描述

您似乎對混淆矩陣感到困惑:當您可以比較分類問題實際值與預測值時使用它,從而為您提供關於是否正確識別類別的絕對真理(TRUE/FALSE)。 例如,如何使用分類器從結果中生成混淆矩陣

https://en.wikipedia.org/wiki/Confusion_matrix 在此處輸入圖像描述

相似矩陣不分類,它們只是為您提供從 0 到 1 的連續值,表示 2 個事物的相似程度。 沒有分類,因此您不能使用混淆矩陣

無論您是想使用相似度矩陣(兩個項目的相似程度)還是分類器(例如電影是“喜劇”還是“戲劇”,電影都可以有多種類型,例如“浪漫喜劇”,因此您需要一個多類分類器),您需要一些測試數據來評估您的 model 的性能

  • 相似度矩陣:相似/不同的電影列表,並期望您的矩陣分別返回接近 1/0 的值
  • 分類器:假設您的數據集中的movie_tags是准確的,您可以使用它們來訓練您的分類器,並預測不在您的數據集中的電影的標簽(您以后可以隨時使用相似度矩陣根據這些預測標簽推薦相似的電影)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM