簡體   English   中英

用混合數據計算相似度矩陣

[英]Computing similarity matrix with mixed data

我也在“交叉驗證”論壇上問過這個問題,但到目前為止還沒有答案,所以我也在這里嘗試:

我想從我的數據(來自汽車公司的故障數據)計算相似性矩陣(我將進一步用於聚類目的)。 數據由以下變量組成:

開始日期 + 時間 (dd/mm/yyyy hh/mm/ss),持續時間(以秒為單位),星期幾(星期一,星期二,...),工作團隊 (1,2,3),本地化 (1) ,2,3,...,20), 故障類型

由此可知,存在連續的分類數據。 您建議使用什么方法來計算故障類型之間的相似性? 我想我不能使用歐幾里得距離,或者 Gowe 的相似性。 先感謝您。

不,您需要一個臨時函數來表示您對數據在現實世界中的含義的了解。 據推測,它主要將權重應用於連續差異,以及離散分類變量的二維簡單矩陣。 但不要排除我們對極端值或模糊化的審查。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM