提高熊猫的数据验证效率

Question

我将数据从CSV加载到Pandas中，并对某些字段进行验证，如下所示：

(1.5s) loans['net_mortgage_margin'] = loans['net_mortgage_margin'].map(lambda x: convert_to_decimal(x))
(1.5s) loans['current_interest_rate'] = loans['current_interest_rate'].map(lambda x: convert_to_decimal(x))
(1.5s) loans['net_maximum_interest_rate'] = loans['net_maximum_interest_rate'].map(lambda x: convert_to_decimal(x))

(48s)  loans['credit_score'] = loans.apply(lambda row: get_minimum_score(row), axis=1)
(< 1s) loans['loan_age'] = ((loans['factor_date'] - loans['first_payment_date']) / np.timedelta64(+1, 'M')).round() + 1
(< 1s) loans['months_to_roll'] = ((loans['next_rate_change_date'] - loans['factor_date']) / np.timedelta64(+1, 'M')).round() + 1
(34s)  loans['first_payment_change_date'] = loans.apply(lambda x: validate_date(x, 'first_payment_change_date', loans.columns), axis=1)
(37s)  loans['first_rate_change_date'] = loans.apply(lambda x: validate_date(x, 'first_rate_change_date', loans.columns), axis=1)

(39s)  loans['first_payment_date'] = loans.apply(lambda x: validate_date(x, 'first_payment_date', loans.columns), axis=1)
(39s)  loans['maturity_date'] = loans.apply(lambda x: validate_date(x, 'maturity_date', loans.columns), axis=1)
(37s)  loans['next_rate_change_date'] = loans.apply(lambda x: validate_date(x, 'next_rate_change_date', loans.columns), axis=1)
(36s)  loans['first_PI_date'] = loans.apply(lambda x: validate_date(x, 'first_PI_date', loans.columns), axis=1)

(36s)  loans['servicer_name'] = loans.apply(lambda row: row['servicer_name'][:40].upper().strip(), axis=1)
(38s)  loans['state_name'] = loans.apply(lambda row: str(us.states.lookup(row['state_code'])), axis=1)
(33s) loans['occupancy_status'] = loans.apply(lambda row: get_occupancy_type(row), axis=1)
(37s)  loans['original_interest_rate_range'] = loans.apply(lambda row: get_interest_rate_range(row, 'original'), axis=1)
(36s)  loans['current_interest_rate_range'] = loans.apply(lambda row: get_interest_rate_range(row, 'current'), axis=1)
(33s)  loans['valid_credit_score'] = loans.apply(lambda row: validate_credit_score(row), axis=1)
(60s)  loans['origination_year'] = loans['first_payment_date'].map(lambda x: x.year if x.month > 2 else x.year - 1)
(< 1s) loans['number_of_units'] = loans['unit_count'].map(lambda x: '1' if x == 1 else '2-4')
(32s)  loans['property_type'] = loans.apply(lambda row: validate_property_type(row), axis=1)

其中大多数是查找row值的函数，有一些直接将元素转换为其他元素，但总的来说，这些都是针对整个数据帧逐行运行的。 编写此代码时，数据帧足够小，因此这不是问题。 但是，现在该代码适用于容纳更大的表，因此这部分代码花费的时间太长。

对此进行优化的最佳方法是什么？ 我的第一个想法是逐行进行，但是一次将所有这些函数/转换应用于行（例如，对于df中的行，执行func1，func2，...，func21），但是我不确定是否最好的解决方法。 例如，有一种方法可以避免lambda获得相同的结果，因为我认为那是lambda需要花费很长时间吗？ 万一重要，请运行Python 2.7。

编辑：这些调用大多数以每行大约相同的速率运行（有几个非常快）。 这是一个具有277,659行的数据框，在大小上排在第80个百分点。

Edit2：函数示例：

def validate_date(row, date_type, cols):
    date_element = row[date_type]
    if date_type not in cols:
        return np.nan
    if pd.isnull(date_element) or len(str(date_element).strip()) < 2:  # can be blank, NaN, or "0"
        return np.nan
    if date_element.day == 1:
        return date_element
    else:
        next_month = date_element + relativedelta(months=1)
        return pd.to_datetime(dt.date(next_month.year, next_month.month, 1))

这类似于最长的调用（origination_year），后者从日期对象（年，月等）中提取值。 其他属性（例如property_type）仅检查不规则值（例如“ N / A”，“ NULL”等），但仍然需要花费一些时间才能遍历每个值。

Answer 1

td; lr：考虑分发处理。 一种改进将是分块读取数据并使用多个进程。 来源http://gouthamanbalaraman.com/blog/distributed-processing-pandas.html

import multiprocessing as mp

def process_frame(df): len(x)

if __name__ == "__main__":

    reader = read_csv(csv-file, chunk_size=CHUNKSIZE)
    pool = mp.Pool(4) # use 4 processes

    funclist = []
    for df in reader:
            # process each data frame
            f = pool.apply_async(process_frame,[df])
            funclist.append(f)

    result = 0
    for f in funclist:
            result += f.get(timeout=10) # timeout in 10 seconds

    print "There are %d rows of data"%(result)

另一种选择是使用GNU parallel 。 这是使用GNU并行的另一个很好的例子

提高熊猫的数据验证效率

问题描述

1 个解决方案

解决方案1
0 2017-02-22 17:52:47

提高熊猫的数据验证效率

问题描述

1 个解决方案

解决方案1 0 2017-02-22 17:52:47

解决方案1
0 2017-02-22 17:52:47