簡體   English   中英

如何在數據集中找到毛刺?

[英]How to find glitch in the dataset?

現在,我面臨一個問題,這里有一些包含故障的數據集。 就像在數據集中有一個數字列。 從外部可以很容易地識別出最大字段有數字。 但它的數據類型是Object。 不僅某些字段具有非數字值。
例如:
一個數據集有“年齡”列: [23, 34, 54, 33, pp, 27, 43]並且它的數據類型是對象。
現在,Chake 這個它有一個字符串值“ pp ”到數字值中。 我們所知道的數據集中的故障。
現在我的問題是我怎樣才能找到那些包含像“ pp ”這樣的小故障的行。

這是我想與您討論的內容的圖像

謝謝。

您可以使用pd.to_numeric()為了脅迫錯誤(非數值),以NaN ,然后檢查NaNisna() 然后,使用.loc使用這些NaN值(來自非數字值)定位行:

df.loc[pd.to_numeric(df['Age'], errors='coerce').isna()]

演示

data = {"Age": [23, 34, 54, 33, 'pp', 27, 43] }
df = pd.DataFrame(data)

df.loc[pd.to_numeric(df['Age'], errors='coerce').isna()]

  Age
4  pp

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM