識別python數據幀中的異常值

Question

我試圖在我的集群模型中識別具有標准偏差的異常值。

# calculate summary statistics
rfm_mean, rfm_std = mean(rfm), std(rfm)

# identify outliers
cut_off = rfm_std * 3
lower, upper = rfm_mean - cut_off, rfm_mean + cut_off

# identify outliers
outliers = [x for x in rfm if x < lower or x > upper]
print('Identified outliers: %d' % len(outliers))

不知道為什么我會收到此回溯錯誤；

Invalid comparison between dtype=float64 and str

對此的任何幫助將不勝感激。

在此先感謝您的支持！

Answer 1

您不能比較 float64 和字符串。 這可能發生在這里：

outliers = [x for x in rfm if x < lower or x > upper]

在使用比較運算符之前使用DataFrame.astype(dtype, copy=True, errors='raise')轉換為正確的類型

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html

識別python數據幀中的異常值

問題描述

1 個解決方案

解決方案1
0 2021-10-25 03:01:08

識別python數據幀中的異常值

問題描述

1 個解決方案

解決方案1 0 2021-10-25 03:01:08

解決方案1
0 2021-10-25 03:01:08