[英]How do I find irregular values in columns in a data-frame that have a huge number of unique values?
以下是數據框中兩列的示例,其中包含有關各種 Google Play 商店應用程序的用戶評論的數據。
最近更新時間 | 當前版本 |
---|---|
2018 年 1 月 7 日 | 1.0.0 |
1.0.19 | 1.2.1 |
2018 年 3 月 17 日 | 因設備而異 |
在這些列中,我想查找任何異常/不規則值(例如列中的“1.0.19”,列中的“上次更新”和“隨設備變化”,上表中看到的“當前版本”)數據清洗。 但是,這些列分別具有 1378 和 2832 個唯一值。 如何掃描這些值並以最快/最有效的方式找到異常,而不必通過龐大的值列表中的每個唯一值 go?
你可以嘗試這樣的事情:
df = pd.read_csv('my_file.csv')
def time_search(x):
try:
return pd.to_datetime(x)
except:
print("found extrange value:", x)
return pd.NA
df['Last Updated'] = df['Last Updated'].apply(time_search)
output
found extrange value: 1.0.19
那么應該很容易刪除 nan 值,例如
因為版本列很容易檢查是否有效
df["Current Ver"].str.contains('^[0-9].([0-9].)*')
我建議為列的 rest 探索這個想法
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.