如何在具有大量唯一值的數據框中的列中找到不規則值？

Question

以下是數據框中兩列的示例，其中包含有關各種 Google Play 商店應用程序的用戶評論的數據。

最近更新時間	當前版本
2018 年 1 月 7 日	1.0.0
1.0.19	1.2.1
2018 年 3 月 17 日	因設備而異

在這些列中，我想查找任何異常/不規則值（例如列中的“1.0.19”，列中的“上次更新”和“隨設備變化”，上表中看到的“當前版本”）數據清洗。 但是，這些列分別具有 1378 和 2832 個唯一值。 如何掃描這些值並以最快/最有效的方式找到異常，而不必通過龐大的值列表中的每個唯一值 go？

Answer 1

你可以嘗試這樣的事情：

df = pd.read_csv('my_file.csv')
def time_search(x):
    try:
        return pd.to_datetime(x)
    except:
        print("found extrange value:", x)
        return pd.NA

df['Last Updated'] = df['Last Updated'].apply(time_search)

output

found extrange value: 1.0.19

那么應該很容易刪除 nan 值，例如

因為版本列很容易檢查是否有效

df["Current Ver"].str.contains('^[0-9].([0-9].)*')

我建議為列的 rest 探索這個想法

如何在具有大量唯一值的數據框中的列中找到不規則值？

問題描述

1 個解決方案

解決方案1
0 已采納 2022-09-06 15:21:29

如何在具有大量唯一值的數據框中的列中找到不規則值？

問題描述

1 個解決方案

解決方案1 0 已采納 2022-09-06 15:21:29

解決方案1
0 已采納 2022-09-06 15:21:29