繁体   English   中英

使用循环基于str条件构造具有多列的数据框-python

[英]Constructing a dataframe with multiple columns based on str conditions using a loop - python

我有一个包含用户位置的webscraped Twitter DataFrame。 位置变量如下所示:

2          Crockett, Houston County, Texas, 75835, USA
3                                   NYC, New York, USA
4                            Warszawa, mazowieckie, RP
5                                           Texas, USA
6                 Virginia Beach, Virginia, 23451, USA
7          Louisville, Jefferson County, Kentucky, USA

我想通过循环为美国所有州构建州假人。

我设法使用以下方法从美国提取用户

location_usa = location_df['location'].str.contains('usa', case = False)

但是我为每个状态编写的代码太庞大了。 我有状态列表作为字符串。 我也无法使用

pd.Series.Str.get_dummies()

因为同一状态下有不同的位置,每个条目都是一个完整的句子。

我希望输出看起来像这样:

   Alabama   Alaska  Arizona
1        0        0        1
2        0        1        0
3        1        0        0 
4        0        0        0

或与布尔值相同。

使用.str.extract得到一个Series的状态,然后用pd.get_dummies在该Series 将需要定义所有50个状态的列表:

import pandas as pd

states = ['Texas', 'New York', 'Kentucky', 'Virginia']
pd.get_dummies(df.col1.str.extract('(' + '|'.join(x+',' for x in states)+ ')')[0].str.strip(','))

   Kentucky  New York  Texas  Virginia
0         0         0      1         0
1         0         1      0         0
2         0         0      0         0
3         0         0      1         0
4         0         0      0         1
5         1         0      0         0

请注意,我在州后面加了一个','因为这似乎是一种模式,可以避免出现'Virginia''Virginia Beach''Virginia'错误匹配,或者避免诸如'Washington County, Minnesota'

如果您希望多个状态在一行上匹配,那么.extractall变成.extractall在第0级进行求和:

pd.get_dummies(df.col1.str.extractall('(' + '|'.join(x+',' for x in states)+ ')')[0].str.strip(',')).sum(level=0).clip(upper=1)

编辑:

也许有更好的方法,但是@BradSolomon允许在'State,( optional 5 digit Zip,) USA'进行匹配

states = ['Texas', 'New York', 'Kentucky', 'Virginia', 'California', 'Pennsylvania']
pat = '(' + '|'.join(x+',?(\s\d{5},)?\sUSA' for x in states)+ ')'

s = df.col1.str.extract(pat)[0].str.split(',').str[0]

输出: s

0           Texas
1        New York
2             NaN
3           Texas
4        Virginia
5        Kentucky
6    Pennsylvania
Name: 0, dtype: object

来自输入

                                          col1
0  Crockett, Houston County, Texas, 75835, USA
1                           NYC, New York, USA
2                    Warszawa, mazowieckie, RP
3                                   Texas, USA
4         Virginia Beach, Virginia, 23451, USA
5  Louisville, Jefferson County, Kentucky, USA
6                California, Pennsylvania, USA

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM