[英]What pre-processing methods do I need for Timestamp, Duration data for use with DBSCAN?
我有一個月的數據,其格式為:
timestamp duration
0 2015-10-01 00:00:08 2912.0
1 2015-10-01 00:48:58 30.0
2 2015-10-01 00:49:58 229.0
3 2015-10-01 00:54:07 4122.0
4 2015-10-01 02:03:19 0.0
...
我希望使用scikit-learn庫中的DBSCAN根據“ HH:MM:SS中的一天中的時間”和“持續時間”這兩個維度執行聚類,
我知道在使用群集之前需要進行一個預處理步驟,但是我不知道要使用哪個步驟!
如果有人能指出我正確的方向,將不勝感激。
謝謝!
這是一個虛假的答案:我也遇到分類問題。 分類算法與按結果聚類沒有太大不同,因為目標是按照相似的模式對它們進行分組。
您可以使用Google“混合數據分類的預處理技術”或類似方法。
主要思想是將時間戳轉換為“分類變量”,然后將其二值化,因此您將擁有年份:1,0,1,1,1,等等,月份:1,0,0,0,0, 0,0,...(對於具有12個變量的一月),...或者您也可以將月份除以季節,因此您將擁有4個季節,依此類推。您需要了解與預期輸出真正相關的內容,雖然。 即4個自變量。
希望能幫助到你!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.