如何根據列的值對 Pandas 數據框中的列進行分類？

Question

我正在從事數據匿名化項目並偶然發現了faker ，它具有廣泛的生成合成數據的功能，例如姓名、姓氏、ssn、信用卡號、日期......

然而，用戶必須手動選擇將哪個功能應用於哪個列。 就像是：

import faker

fake = faker.Faker()

df["Name"] = df.name.apply(lambda x: fake.name())
df["City"] = df.name.apply(lambda x: fake.city())

在某些數據集中，列的名稱可能與其包含的數據不同。 所以我想知道有沒有辦法以某種方式自動化將特定功能應用於相應列的過程？

或者以某種方式將列的值與函數期望的輸入進行比較，如果相似，則應用該函數。

我真的很感激任何指示、指導或幫助！

Answer 1

這樣的事情怎么樣？

import faker

fake = faker.Faker()

mapping = {
    'Name': fake.name,
    'City': fake.city,
}

for col, func in mapping.items():
    df[col] = df[col].apply(lambda x: func())

如何根據列的值對 Pandas 數據框中的列進行分類？

問題描述

1 個解決方案

解決方案1
0 2021-11-09 14:43:15

如何根據列的值對 Pandas 數據框中的列進行分類？

問題描述

1 個解決方案

解決方案1 0 2021-11-09 14:43:15

解決方案1
0 2021-11-09 14:43:15