簡體   English   中英

對於與DBSCAN一起使用的時間戳,持續時間數據,我需要什么預處理方法?

[英]What pre-processing methods do I need for Timestamp, Duration data for use with DBSCAN?

我有一個月的數據,其格式為:


            timestamp  duration
0 2015-10-01 00:00:08    2912.0
1 2015-10-01 00:48:58      30.0
2 2015-10-01 00:49:58     229.0
3 2015-10-01 00:54:07    4122.0
4 2015-10-01 02:03:19       0.0
...

我希望使用scikit-learn庫中的DBSCAN根據“ HH:MM:SS中的一天中的時間”和“持續時間”這兩個維度執行聚類,

我知道在使用群集之前需要進行一個預處理步驟,但是我不知道要使用哪個步驟!

如果有人能指出我正確的方向,將不勝感激。

謝謝!

這是一個虛假的答案:我也遇到分類問題。 分類算法與按結果聚類沒有太大不同,因為目標是按照相似的模式對它們進行分組。

您可以使用Google“混合數據分類的預處理技術”或類似方法。

主要思想是將時間戳轉換為“分類變量”,然后將其二值化,因此您將擁有年份:1,0,1,1,1,等等,月份:1,0,0,0,0, 0,0,...(對於具有12個變量的一月),...或者您也可以將月份除以季節,因此您將擁有4個季節,依此類推。您需要了解與預期輸出真正相關的內容,雖然。 即4個自變量。

希望能幫助到你!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM