簡體   English   中英

python 監督學習與數據集分類

[英]python supervised learning with data set classification

我是深度學習的新手,目前正在研究某個主題。 我正在尋找時間序列模式中異常的機器學習檢測及其在 python 中的實現。

例如,我在某個時間間隔內記錄了我的計算機的不同 CPU 頻率。 我想實現一個監督學習算法,它以 CPU 頻率的時間序列作為輸入,並決定在那段時間是否發生任何“不尋常”的事情(不尋常的 CPU 使用率等)。

編輯:

我的數據集如下所示,每 10 秒測量一次當前 CPU 頻率。 我沒有指定每組數據點的確切數量,以下僅用於說明。 但我預計每組大約有 2500 個數據點:

數據集_1:{1.2、1.2、1.6、1.3、1.5、1.7、1.6、1.4、1.5} -> Label:“好”

數據集_2:{1.3、1.2、1.4、1.3、1.4、1.5、1.9、2.1、2.0} -> Label:“好”

數據集_n:{1.3、1.2、3.6、3.5、1.4、1.5、3.3、3.2、1.2} -> Label:“壞”

我對監督機器學習算法的理解是我有訓練數據集。 但是,到目前為止,我發現的每個教程總是標記數據集中的每個值。 在我的情況下這是不可能的,因為我只能告訴我的 ML 算法:

a) 這個時間序列數據集是正常的

b) 在這個數據集中有些東西是不正常的

但我不能 label 每個單獨的值,這意味着我不能說:

1.2 -> 好

1.3 -> 不好

1.4 -> 好

由於有許多不同的 ML 算法,初學者很難確定哪個是好的。 所以我的問題是:

我可以使用哪種(python 實現)算法作為開始,它接受整個數據集的標簽,並且不希望每個值都被標記。

我希望這個問題是有道理的,非常歡迎編輯和您的時間一樣! 謝謝!

對於這個應用程序,我將 go 與 KNN(K - 最近鄰)。 Tech with Tim 有一個很棒的關於 KNN 的教程,很好地解釋了它並展示了實現。 希望這可以幫助

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM