[英]Best way to optimize nested for loop
我有一些嵌套的 for 循环可以工作,并将 append 分数列表。 目前运行速度非常慢。 有没有办法轻松优化它并让它运行得更快?
scores = []
for day in range(0,len(date)):
x = []
for entry in range(0,len(df_new)):
if df_new['timestamp(America/New_York)'].dt.strftime('%Y-%m-%d').iloc[entry] == date[day]:
for times in range(0,len(time)):
if df_new['timestamp(America/New_York)'].dt.strftime('%H:%M:%S').iloc[entry] == time[times]:
x.append(df_new['score'].iloc[entry])
scores.append(x)
.这也是数据框的图片。 ] 1
您当前在嵌套循环中多次调用方法df_new['timestamp(America/New_York)'].dt.strftime('%Y-%m-%d')
,这意味着您必须获取该方法数据很多次。
您可以做的是将df_new['timestamp(America/New_York)'].dt.strftime('%Y-%m-%d')
的值存储在循环之前的变量中,然后调用它变量,因为它现在包含您需要的数据。
像这样的东西
data_frame = df_new['timestamp(America/New_York)'].dt.strftime('%Y-%m-%d')
for entry in range(0,len(df_new)):
if data_frame.iloc[entry] == date[day]:
for times in range(0,len(time)):
etc. etc.
不要认为它会改善太多,但至少有点!
不需要循环,您可以为每个条件创建两个 boolean 掩码,然后在两个掩码之间使用&
索引您的原始 dataframe。 一个例子如下所示。
print(df)
ts score
0 2021-09-16 11:45:00 88.6
1 2021-09-16 11:48:00 92.3
2 2021-09-30 11:45:00 44.5
3 2021-09-30 12:45:00 55.4
print(dates)
['2021-09-16']
print(times)
['11:45:00', '11:48:00']
mask1 = df["ts"].dt.strftime('%Y-%m-%d').isin(dates)
mask2 = df["ts"].dt.strftime('%H:%M:%S').isin(times)
df.loc[mask1 & mask2]
ts score
0 2021-09-16 11:45:00 88.6
1 2021-09-16 11:48:00 92.3
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.