[英]Identifying outliers in a python Dataframe
我試圖在我的集群模型中識別具有標准偏差的異常值。
# calculate summary statistics
rfm_mean, rfm_std = mean(rfm), std(rfm)
# identify outliers
cut_off = rfm_std * 3
lower, upper = rfm_mean - cut_off, rfm_mean + cut_off
# identify outliers
outliers = [x for x in rfm if x < lower or x > upper]
print('Identified outliers: %d' % len(outliers))
不知道為什么我會收到此回溯錯誤;
Invalid comparison between dtype=float64 and str
對此的任何幫助將不勝感激。
在此先感謝您的支持!
您不能比較 float64 和字符串。 這可能發生在這里:
outliers = [x for x in rfm if x < lower or x > upper]
在使用比較運算符之前使用DataFrame.astype(dtype, copy=True, errors='raise')轉換為正確的類型
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.