繁体   English   中英

向量化熊猫数据框将函数应用于python中的用户定义函数

[英]Vectorising pandas dataframe apply function for user defined function in python

我要计算指定日期的一周中的某周。 对于每月的第几周,我目前使用用户定义的函数。

输入数据帧:

输入数据框

输出数据帧:

输出数据框

这是我尝试过的:

from math import ceil
def week_of_month(dt):
    """ 
       Returns the week of the month for the specified date.
    """

    first_day = dt.replace(day=1)

    dom = dt.day
    adjusted_dom = dom + first_day.weekday()

    return int(ceil(adjusted_dom/7.0))

在这之后,

import pandas as pd

df = pd.read_csv("input_dataframe.csv")
df.date = pd.to_datetime(df.date)
df['year_of_date'] = df.date.dt.year
df['month_of_date'] = df.date.dt.month
df['day_of_date'] = df.date.dt.day


wom = pd.Series()

# worker function for creating week of month series
def convert_date(t):
    global wom
    wom = wom.append(pd.Series(week_of_month(datetime.datetime(t[0],t[1],t[2]))), ignore_index = True)

# calling worker function for each row of dataframe
_ = df[['year_of_date','month_of_date','day_of_date']].apply(convert_date, axis = 1)

# adding new computed column to dataframe
df['week_of_month'] = wom
# here this updated dataframe should look like Output data frame.

这是针对使用给定函数计算的数据行的每一行进行的。 随着数据帧增加到更多行,它使计算速度变慢。 因为目前我有超过1000万行。

我正在寻找一种更快的方法。 我可以对此代码进行哪些更改以在所有行上向量化此操作?

提前致谢。

编辑:阅读答案后对我有用的是下面的代码,

first_day_of_month = pd.to_datetime(df.date.values.astype('datetime64[M]'))
df['week_of_month'] = np.ceil((df.date.dt.day + first_day_of_month.weekday) / 7.0).astype(int)

可以对week_of_month方法进行向量化。 不执行到datetime对象的转换,而只使用pandas方法可能是有益的。

first_day_of_month = df.date.to_period("M").to_timestamp()
df["week_of_month"] = np.ceil((data.day + first_day_of_month.weekday) / 7.0).astype(int)

甚至不用花很多时间编写代码,也不会提到X / Y问题,等等:
尝试获取唯一日期的列表,我敢肯定,在1000万行中,您有多个是重复的。

脚步:

  1. 创建第二个df,其中仅包含您需要的列,并且不包含重复项(drop_duplicates)
  2. 在小型数据框上运行函数
  3. 合并大型和小型dfs
  4. (可选)掉一小

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM