繁体   English   中英

用基于正则表达式的另一个列值替换一个列值 - Python

[英]Replacing a column value by another column value based on regex - Python

这是我的 DataFrame 的摘录

data = [
    ['Citroën Amillis', '20 Za Des Baliveaux - 77120 Amillis', '77120', 'ok'],
    ['Relat Paris 9e', 'Métro Opéra - 75009 Paris 9e', 'Paris', 'error'],
    ['Macif Avon', '49 Av Franklin Roosevelt - 77210 Avon', '77210', 'ok'],
    ['Atac La Chapelle-la-Reine', 'Za Rue De L\'avenir - 77760 La Chapelle-la-Reine', 'La', 'error'],
    ['Société Générale La Ferté-Gaucher', '42 Rue De Paris - 77320 La Ferté-Gaucher', 'La', 'error']
]

df = pd.DataFrame(data, columns=['nom_magasin', 'adresse', 'code_postal', 'is_code_postal'])

df

如您所见,我的数据框中存在错误。 对于某些地址,特别是当城市名称是组成时(例如:“La Chapelle-la-Reine”),“code_postal”列是错误的。

我想要做的是以下内容:如果“is_code_postal”列是“错误”,则将“code_postal”替换为“adresse”列中出现的邮政编码的正则表达式。

我找不到解决方案。 为此,我尝试了df['is_code_postal'] = np.where(df.code_postal.str.match('^[a-zA-z]'), 'error', 'ok') 起初我正在考虑在同一个函数中进行所有更改。 但我错过了一些东西。

重要的是我的数据框有点重(超过 25 万行),所以我想寻求一个有效的解决方案。

你们有什么想法吗?

您可以忽略 code_postal 并使用 Quang 的代码直接从“地址”中提取它:

df['code_postal']=df['adresse'].str.extract('(\d{5})')

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM