如何在數據集中找到毛刺？

Question

現在，我面臨一個問題，這里有一些包含故障的數據集。 就像在數據集中有一個數字列。 從外部可以很容易地識別出最大字段有數字。 但它的數據類型是Object。 不僅某些字段具有非數字值。
例如：
一個數據集有“年齡”列： [23, 34, 54, 33, pp, 27, 43]並且它的數據類型是對象。
現在，Chake 這個它有一個字符串值“ pp ”到數字值中。 我們所知道的數據集中的故障。
現在我的問題是我怎樣才能找到那些包含像“ pp ”這樣的小故障的行。

這是我想與您討論的內容的圖像

謝謝。

Answer 1

您可以使用pd.to_numeric()為了脅迫錯誤（非數值），以NaN ，然后檢查NaN與isna() 然后，使用.loc使用這些NaN值（來自非數字值）定位行：

df.loc[pd.to_numeric(df['Age'], errors='coerce').isna()]

演示

data = {"Age": [23, 34, 54, 33, 'pp', 27, 43] }
df = pd.DataFrame(data)

df.loc[pd.to_numeric(df['Age'], errors='coerce').isna()]

  Age
4  pp

如何在數據集中找到毛刺？

問題描述

1 個解決方案

解決方案1
0 已采納 2021-08-02 16:23:01

如何在數據集中找到毛刺？

問題描述

1 個解決方案

解決方案1 0 已采納 2021-08-02 16:23:01

解決方案1
0 已采納 2021-08-02 16:23:01