簡體   English   中英

識別python數據幀中的異常值

[英]Identifying outliers in a python Dataframe

我試圖在我的集群模型中識別具有標准偏差的異常值。

# calculate summary statistics
rfm_mean, rfm_std = mean(rfm), std(rfm)

# identify outliers
cut_off = rfm_std * 3
lower, upper = rfm_mean - cut_off, rfm_mean + cut_off

# identify outliers
outliers = [x for x in rfm if x < lower or x > upper]
print('Identified outliers: %d' % len(outliers))

不知道為什么我會收到此回溯錯誤;

Invalid comparison between dtype=float64 and str

對此的任何幫助將不勝感激。

在此先感謝您的支持!

您不能比較 float64 和字符串。 這可能發生在這里:

outliers = [x for x in rfm if x < lower or x > upper]

在使用比較運算符之前使用DataFrame.astype(dtype, copy=True, errors='raise')轉換為正確的類型

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM