繁体   English   中英

优化嵌套 for 循环的最佳方法

[英]Best way to optimize nested for loop

我有一些嵌套的 for 循环可以工作,并将 append 分数列表。 目前运行速度非常慢。 有没有办法轻松优化它并让它运行得更快?

scores = []
for day in range(0,len(date)):
x = []
for entry in range(0,len(df_new)):
    if df_new['timestamp(America/New_York)'].dt.strftime('%Y-%m-%d').iloc[entry] == date[day]:
        for times in range(0,len(time)):
            if df_new['timestamp(America/New_York)'].dt.strftime('%H:%M:%S').iloc[entry] == time[times]:
                x.append(df_new['score'].iloc[entry])
scores.append(x)

.这也是数据框的图片。 ] 1

您当前在嵌套循环中多次调用方法df_new['timestamp(America/New_York)'].dt.strftime('%Y-%m-%d') ,这意味着您必须获取该方法数据很多次。

您可以做的是将df_new['timestamp(America/New_York)'].dt.strftime('%Y-%m-%d')的值存储在循环之前的变量中,然后调用它变量,因为它现在包含您需要的数据。

像这样的东西

data_frame = df_new['timestamp(America/New_York)'].dt.strftime('%Y-%m-%d')

for entry in range(0,len(df_new)):
    if data_frame.iloc[entry] == date[day]:
        for times in range(0,len(time)):

etc. etc.

不要认为它会改善太多,但至少有点!

不需要循环,您可以为每个条件创建两个 boolean 掩码,然后在两个掩码之间使用&索引您的原始 dataframe。 一个例子如下所示。

print(df)
                   ts  score
0 2021-09-16 11:45:00   88.6
1 2021-09-16 11:48:00   92.3
2 2021-09-30 11:45:00   44.5
3 2021-09-30 12:45:00   55.4

print(dates)
['2021-09-16']

print(times)
['11:45:00', '11:48:00']

mask1 = df["ts"].dt.strftime('%Y-%m-%d').isin(dates)
mask2 = df["ts"].dt.strftime('%H:%M:%S').isin(times)

df.loc[mask1 & mask2]
                   ts  score
0 2021-09-16 11:45:00   88.6
1 2021-09-16 11:48:00   92.3

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM