簡體   English   中英

軌跡聚類:哪種聚類方法?

[英]Trajectory Clustering: Which Clustering Method?

作為機器學習的新手,我有一組可能有不同長度的軌跡。 我希望將它們聚類,因為它們中的一些實際上是相同的路徑,並且由於噪聲,它們看起來不同

此外,並非所有的長度相同 所以也許雖然軌跡 A 與軌跡 B 不同,但它是軌跡 B 的一部分。我也希望在聚類后呈現這個屬性。

我對K-means ClusteringFuzzy N-means Clustering只有一點了解。 我該如何在這兩者之間做出選擇? 還是我應該采用其他方法?

任何考慮“歸屬”的方法? (例如,在聚類之后,我有 3 個聚類A, B and C一個特定的trajectory X屬於cluster A 。而較短的trajectory Y ,雖然沒有聚類在A ,但被識別為trajectory B一部分。)

==================== 更新 ======================

上述軌跡是行人的軌跡。 它們可以表示為一系列(x, y)點或一系列步進向量(length, direction) 演示文稿在我的控制之下。

可能有點晚了,但我也在解決同樣的問題。 我建議你看看TRACLUS ,一種由 Jae-Gil Lee、Jiawei Han 和 Kyu-Young Wang 創建的算法,發表在 SIGMOD'07 上。 http://web.engr.illinois.edu/~hanj/pdf/sigmod07_jglee.pdf

這是迄今為止我見過的用於聚類軌跡的最佳方法,因為:

  • 可以發現常見的子軌跡
  • 專注於 Segments 而不是點(因此它過濾掉了噪聲異常值)。
  • 它適用於不同長度的軌跡。

基本上是一個兩階段的方法:

  1. 第一階段- 分區:將軌跡划分為多個段,這是使用復雜度為 O(n) 的 MDL 優化完成的,其中 n 是給定軌跡中的點數。 這里輸入是一組軌跡,輸出是一組段。

    • 復雜度:O(n) 其中 n 是軌跡上的點數
    • 輸入:軌跡集。
    • 輸出:段集 D
  2. 第二階段- 分組:此階段使用某種版本的基於密度的聚類(如 DBSCAN)來發現聚類。 此階段的輸入是從第一階段獲得的一組段以及構成鄰域的一些參數以及可以構成集群的最小線數。 輸出是一組集群。 聚類是在段上完成的。 他們定義了由 3 個分量組成的自己的距離度量:平行距離、垂直距離和角距離。 此階段的復雜度為 O(n log n),其中 n 是段數。

    • 復雜度:O(n log n) 其中 n 是集合 D 上的段數
    • 輸入:段的集合 D,設置鄰域閾值的參數 E 和最小行數的參數 MinLns。
    • 輸出:Cluster 的 Set C,即一個由段(軌跡聚類)組成的集群。

最后,他們為每個集群計算一個有代表性的軌跡,這與在每個集群中發現的公共子軌跡沒有什么不同

他們有很酷的例子,這篇論文解釋得很好。 再一次,這不是我的算法,所以如果你在做研究,不要忘記引用它們。

PS:我根據他們的工作制作了一些幻燈片,僅用於教育目的: http : //www.slideshare.net/ivansanchez1988/trajectory-clustering-traclus-algorithm

每個聚類算法都需要一個度量。 您需要定義樣本之間的距離。 在您的情況下,簡單的歐幾里得距離不是一個好主意,特別是如果軌跡可以有不同的長度。

如果您定義了一個指標,那么您可以使用任何允許自定義指標的聚類算法。 可能您事先不知道正確的集群數量,那么層次聚類是一個不錯的選擇。 K-means 不允許自定義指標,但有 K-means 的修改(如 K-medoids)

困難的部分是定義兩條軌跡(時間序列)之間的距離。 常用的方法是 DTW(動態時間扭曲)。 為了提高性能,您可以通過更少量的點(許多算法)來近似您的軌跡。

兩者都不會奏效。 因為這里的正確意思是什么?

看看基於距離的聚類方法,例如層次聚類(對於小數據集,但您可能沒有數千條軌跡)和 DBSCAN。

然后您只需要選擇一個合適的距離函數,例如允許軌跡的時間和空間分辨率的差異。

諸如動態時間扭曲 (DTW) 距離之類的距離函數可以適應這一點。

這是一個很好的概念,並且有可能用於實時應用程序。 在我看來,可以采用任何聚類,但需要選擇合適的相異性度量,稍后需要考慮計算復雜度。 論文 ( http://link.springer.com/chapter/10.1007/978-81-8489-203-1_15 ) 使用了 Hausdorff 並提出了降低復雜性的技術,以及論文 ( http://www.cit.iit.bas .bg/CIT_2015/v-15-2/4-5-TCMVS%20A-edited-md-Gotovop.pdf ) 描述了“基於多視圖相似性的軌跡聚類技術”的使用

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM