簡體   English   中英

機器學習-分類或聚類

[英]Machine Learning - Classification or Clustering

我是機器學習的新手,有一個我想解決的問題,看看是否有人對最好使用哪種算法有任何想法。 我不是在尋找代碼,而是一個過程。

問題:我將人們分為兩類:高風險和低風險。 (這是一個非常基本的起點,我將在學習如何進行更詳細的分類時進行擴展)

每個人都有11個我正在查看的變量,每個變量都有一個二進制值(0表示否,1表示是)。 這些變量就像已婚,gun_owner,home_owner等。因此我收集到每個人可以擁有這些變量的2 ^ 11或2048種不同組合。

我有一個包含此信息和結果的數據集(無論他們是否犯罪)。 我認為這些數據將用於訓練,然后該算法可以對高風險個體進行預測。

有人對最佳算法有任何想法嗎? 由於變量太多,因此我很難確定可能的方法。

這是一個二進制分類問題,每個輸入都有一個長度為11的二進制字符串。有很多算法可以解決此問題。 最簡單的模型是朴素貝葉斯模型( https://en.wikipedia.org/wiki/Naive_Bayes_classifier )。 您還可以嘗試一些線性分類器,例如邏輯回歸或SVM。 它們都適用於線性可分離數據和二進制分類。

您似乎想根據一些功能對人員進行分類。 它看起來像一個簡單的二進制分類問題。 但是,不是很清楚您所擁有的數據是否帶有標簽。

所以第一個問題是,在您的數據集中,您知道哪個人是“高風險”,哪個人是“低風險”嗎? 如果您掌握了這些信息,則可以將大量機器學習模型用於此分類任務。

但是,如果標簽不存在(“高風險”或“低風險”),則不能這樣做。 然后,您必須考慮一些無監督的學習方法(集群)。 希望這能回答您的問題。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM