加快pandas數據幀查找速度

Question

我有一個大約有600,000個地點的郵政編碼，城市，州和國家的熊貓數據框。 我們稱之為my_df

我想查看每個位置的相應經度和緯度。 值得慶幸的是，有一個數據庫此。 我們稱這個數據幀為zipdb 。

zipdb包含郵政編碼，城市，州和國家/地區的列。 所以，我想查找zipdb所有位置（zip，city，state和country）。

def zipdb_lookup(zipcode, city, state, country):

   countries_mapping = { "UNITED STATES":"US"
                     , "CANADA":"CA"
                     , "KOREA REP OF":"KR"
                     , "ITALY":"IT"
                     , "AUSTRALIA":"AU"
                     , "CHILE":"CL"
                     , "UNITED KINGDOM":"GB"
                     , "BERMUDA":"BM"
    }

    try:
        slc = zipdb[ (zipdb.Zipcode == str(zipcode)) &
                     (zipdb.City == str(city).upper()) &
                     (zipdb.State == str(state).upper()) &
                     (zipdb.Country == countries_mapping[country].upper()) ]

        if slc.shape[0] == 1:
            return np.array(slc["Lat"])[0], np.array(slc["Long"])[0]
        else:
            return None
    except:
         return None

我嘗試過.apply以及for循環來做到這一點。 兩者都很慢。 我認識到有很多行，但我不禁想到一些更快的東西。

zipdb = pandas.read_csv("free-zipcode-database.csv") #linked to above

注意：我還在zibdb上執行了這個轉換：

zipdb["Zipcode"] = zipdb["Zipcode"].astype(str)

功能調用：

#Defined a wrapper function:
def lookup(row):
    """

    :param row:
    :return:
    """

    lnglat = zipdb_lookup(
                  zipcode = my_df["organization_zip"][row]
                , city    = my_df["organization_city"][row]
                , state   = my_df["organization_state"][row]
                , country = my_df["organization_country"][row]
    )

    return lnglat

lnglat = list()
for l in range(0, my_df.shape[0]):
    # if l % 5000 == 0: print(round((float(l) / my_df.shape[0])*100, 2), "%")
    lnglat.append(lookup(row = l))

來自my_df示例數據：

       organization_zip organization_city organization_state  organization_country
0                 60208          EVANSTON                 IL   United Sates
1                 77555         GALVESTON                 TX   United Sates
2                 23284          RICHMOND                 VA   United Sates
3                 53233         MILWAUKEE                 WI   United Sates
4                 10036          NEW YORK                 NY   United Sates
5                 33620             TAMPA                 FL   United Sates
6                 10029          NEW YORK                 NY   United Sates
7                 97201          PORTLAND                 OR   United Sates
8                 97201          PORTLAND                 OR   United Sates
9                 53715           MADISON                 WI   United Sates

Answer 1

使用merge()比在每一行調用函數要快得多。 確保字段類型匹配並刪除字符串：

# prepare your dataframe
data['organization_zip'] = data.organization_zip.astype(str)
data['organization_city'] = data.organization_city.apply(lambda v: v.strip())
# get the zips database
zips = pd.read_csv('/path/to/free-zipcode-database.csv')
zips['Zipcode'] = zips.Zipcode.astype(str)
# left join
# -- prepare common join columns
zips.rename(columns=dict(Zipcode='organization_zip',
                         City='organization_city'), 
            inplace=True)  
# specify join columns along with zips' columns to copy
cols = ['organization_zip', 'organization_city', 'Lat', 'Long']
data.merge(zips[cols], how='left')
=>

請注意，您可能需要擴展合並列和/或添加更多列以從zips數據幀進行復制。

加快pandas數據幀查找速度

問題描述

1 個解決方案

解決方案1
5 已采納 2016-07-09 18:15:08

加快pandas數據幀查找速度

問題描述

1 個解決方案

解決方案1 5 已采納 2016-07-09 18:15:08

解決方案1
5 已采納 2016-07-09 18:15:08