如何在不添加重復項的情況下使用 pandas 更新 CSV 文件

Question

我正在嘗試從 web 中獲取一些數據，這需要一段時間。 萬一發生任何事情，我會定期將數據保存在 csv 文件中。

但是，它只是將 dataframe 的新副本附加到 CSV 文件中。 這意味着文件中有大量重復項。

df.to_csv('data.csv', mode='a', header=False)

是我用來保存進度的命令。

謝謝閱讀。

Answer 1

IIUC，您有一個 dataframe 到 append 隨着時間的推移，您想定期備份。

您可以嘗試多種方法：

如果寫入文件很快，而不是追加，只需每次寫入完整的 dataframe （寫入 header 在這種情況下可能有用）：

df.to_csv('data.csv', header=False)  # or header=True

跟蹤您已經編寫了哪些行，並且只有 append 新行：

# (i) First time write the complete dataframe
df.to_csv('data.csv', header=False)  # or header=True

# (ii) store the length of the dataframe at that point
lines_written = len(df.index)

# More data is being added to the dataframe from the web

# (iii) append new lines to CSV file
df.iloc[lines_written:].to_csv('data.csv', mode='a', header=False)

# (iv) update the line counter
lines_written = len(df.index)

# repeat steps (iii) and (iv)

如何在不添加重復項的情況下使用 pandas 更新 CSV 文件

問題描述

1 個解決方案

解決方案1
0 已采納 2020-07-05 21:29:32

如何在不添加重復項的情況下使用 pandas 更新 CSV 文件

問題描述

1 個解決方案

解決方案1 0 已采納 2020-07-05 21:29:32

解決方案1
0 已采納 2020-07-05 21:29:32