如何使用嵌套的 iterrows 優化 Pandas 代碼

Question

所以我有這個使用嵌套 iterrows 的代碼。 我讀過 iterrows 比 .apply 或矢量化慢得多。

workbook = openpyxl.load_workbook(output)
worksheet = workbook['Sheet1']

for indexA, rowA in dfA.iterrows():
    nameA = rowA[0]
    for indexB, rowB in dfB.iterrows():
        nameB = rowB[14]
        if nameB.startswith(nameA):
            print(f"Found match : {nameB} starts with {nameA}")
            ws[f"A{indexA}"] = indexB[1]
            ws[f"B{indexA}"] = indexB[2]
            ws[f"C{indexA}"] = indexB[3]

wb.save(output)
wb.close()

我無法弄清楚如何使用矢量化或應用於這部分。 目前，dfA 中有 500,000 行，需要 3 個多小時。 無論如何，我正在尋找加快速度。 謝謝你的幫助！

Answer 1

我想首先找到df2[14].startswith df1[0] ，然后創建一個 df，然后使用 pd.save_excel 可能更有效。

但我不明白為什么即使您已經找到匹配項（只需要最后一個？），為什么還要循環所有 df2 行。

如何使用嵌套的 iterrows 優化 Pandas 代碼

問題描述

1 個解決方案

解決方案1
0 2021-07-16 07:35:53

如何使用嵌套的 iterrows 優化 Pandas 代碼

問題描述

1 個解決方案

解決方案1 0 2021-07-16 07:35:53

解決方案1
0 2021-07-16 07:35:53