簡體   English   中英

如何在具有大量唯一值的數據框中的列中找到不規則值?

[英]How do I find irregular values in columns in a data-frame that have a huge number of unique values?

以下是數據框中兩列的示例,其中包含有關各種 Google Play 商店應用程序的用戶評論的數據

最近更新時間 當前版本
2018 年 1 月 7 日 1.0.0
1.0.19 1.2.1
2018 年 3 月 17 日 因設備而異

在這些列中,我想查找任何異常/不規則值(例如列中的“1.0.19”,列中的“上次更新”和“隨設備變化”,上表中看到的“當前版本”)數據清洗。 但是,這些列分別具有 1378 和 2832 個唯一值。 如何掃描這些值並以最快/最有效的方式找到異常,而不必通過龐大的值列表中的每個唯一值 go?

你可以嘗試這樣的事情:

df = pd.read_csv('my_file.csv')
def time_search(x):
    try:
        return pd.to_datetime(x)
    except:
        print("found extrange value:", x)
        return pd.NA

df['Last Updated'] = df['Last Updated'].apply(time_search)

output

found extrange value: 1.0.19

那么應該很容易刪除 nan 值,例如

因為版本列很容易檢查是否有效

df["Current Ver"].str.contains('^[0-9].([0-9].)*')

我建議為列的 rest 探索這個想法

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM