簡體   English   中英

如何在機器學習中處理時間序列數據與其他屬性?

[英]How to handle time series data with other attributes in machine learning?

我正在研究二進制分類問題,如果每個數據實例都有幾個不同指標的時間序列,那么還有其他一些屬性。 如何處理時間序列,將它們視為獨立屬性? 但這會丟失與時間維度相關的信息。

為了使其更具體,訓練實例的示例將如下所示:

ID MetricA_Day1 MetricA_Day2 ..... MetricA_Day31 MetricB_Day1....MetricB_Day2 AttributeC AttributeD AttributeE

有關於如何處理這個問題的最佳做法嗎?

首先,“通用”答案: 不是,機器學習中沒有最好的實踐 事實上,只有壞的當前流行的,但不是“最好的”。 即使對於二進制,線性分類,它是否依賴於數據,是否更好地訓練幾何模型(SVM?)或概率模型。 即使我們縮小到某個特定模型(簡稱神經網絡),即使在數據縮放方面也沒有最佳實踐。 它應該在[0,1]嗎? 或者[-1,1]? 那么0和方差1怎么樣? 協方差矩陣是什么?

現在了解詳細信息 - 您的問題幾乎沒有提供有關數據的信息。 說“我有一些屬性和很少的時間序列”遠遠沒有給出真正有見地和有價值的答案的任何機會。 但它似乎不是一個有任何明確答案的任務,它是一項長期研究任務。

你在研究期間可以搜索什么?

  • 這里真的需要這么豐富的代表嗎? 人們傾向於認為“越多越好”,就ML而言,這並不是真的。 更簡單,信息量更大的表示通常要好得多也許嘗試將時間序列表示為一些一般特征,如sime頻率特征,幅度等。
  • 內核方法可以使用非常廣泛的相似性度量范圍,特別是您可以為表示的每個“部分”定義不同的度量 - 因此時間序列將使用特殊內核,而簡單屬性則使用簡單屬性,並且通常您只是使用這些內核的總和(也是一個有效的內核)
  • 通過為每個維度定義各種距離,可以使用基於距離的方法(如kNN)執行類比方法
  • 你也可以為表示的每個“部分”訓練單獨的分類器 - 所以再次 - 時間序列有一些專門的時間序列分類器等,並使用它們作為一個ensamble (有很多方法使用這樣的ensambles,它目前相當熱ML中的主題)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM