如何優化此 Python 代碼？

Question

我想獲得每個國家/地區所有IndicatorsCode的Year值的平均值：

import numpy as np
import pandas as pd
datos = pd.read_csv("suramerica.csv")

media = list()
agricultura = list()
flag=0

paises = np.array(['Antigua and Barbuda','Argentina','Chile','Colombia'])
indicadores_agricultura = np.array(['EG.ELC.ACCS.RU.ZS','EG.NSF.ACCS.RU.ZS'])

for i in paises:
    for j in indicadores_agricultura:
        for k in range(len(datos)):
            if i==datos['CountryName'][k] and j==datos['IndicatorCode'][k]:
                flag=1
                media.append(datos['Year'][k])
    if flag==1:
        agricultura.append(np.array([i,np.mean(media)]))
        del media[:]
        flag=0
pd.DataFrame(agricultura,columns=['Paises','Agricultura y Desarrollo Rural'])

這是結果的數據幀：

輸出數據

如果您需要訪問 csv： Suramerica.csv

這段代碼需要很長時間才能執行。 感謝您的時間 - 任何建議都會很棒。

Answer 1

似乎沒有必要為每個組合遍歷完整的數據。 我正在使用 dict 對象來保存所需的信息。 然后使用它計算 np.mean 。 這將大大提高執行速度。 這是代碼：

import numpy as np
import pandas as pd
datos = pd.read_csv("suramerica.csv")

agricultura = list()

output = {}


paises = np.array(['Antigua and Barbuda','Argentina','Chile','Colombia'])
indicadores_agricultura = np.array(['EG.ELC.ACCS.RU.ZS','EG.NSF.ACCS.RU.ZS'])


for k in range(len(datos)):
    cn = datos['CountryName'][k]
    indicator_code = datos['IndicatorCode'][k]
    # change1
    if cn not in output.keys():
            output[cn] = []
    if cn in paises and indicator_code in indicadores_agricultura:
        year = datos['Year'][k]

for o in output:
    # change2
    media = output.get(o)
    if not media:
        media = 0.0
    agricultura.append(np.array([o,np.mean(media)]))

output2 = pd.DataFrame(agricultura,columns=['Paises','Agricultura y Desarrollo Rural'])
print(output2)

Answer 2

我會以這種方式開始編寫循環：

for k, _ in enumerate(datos):
    cn = datos['CountryName'][k]
    ic = datos['IndicatorCode'][k]

    for i in paises:
        if i != cn:
            continue
        for j in indicadores_agricultura:
            if j == ic:
                flag = 1
                media.append(datos['Year'][k])

    if flag:
        agricultura.append(np.array([i,np.mean(media)]))
        del media[:]
        flag = 0

如何優化此 Python 代碼？

問題描述

2 個解決方案

解決方案1
2 已采納 2017-01-16 15:31:17

解決方案2
0 2017-01-16 14:20:00

如何優化此 Python 代碼？

問題描述

2 個解決方案

解決方案1 2 已采納 2017-01-16 15:31:17

解決方案2 0 2017-01-16 14:20:00

解決方案1
2 已采納 2017-01-16 15:31:17

解決方案2
0 2017-01-16 14:20:00