簡體   English   中英

Pandas HDFStore 緩存

[英]Pandas HDFStore caching

我正在使用一個中等大小的數據集,其中包含大約 150 個 HDF 文件,每個文件 0.5GB。 有一個預定的進程使用store.appendpd.HDFStore更新這些文件。

我正在嘗試實現以下場景:對於 HDF 文件:

  1. 保持更新商店的進程運行
  2. 以只讀模式打開商店
  3. 運行一個 while 循環,該循環將不斷從商店中選擇最新的可用行。
  4. 在腳本退出時關閉商店

現在,這工作正常,因為我們可以擁有任意數量的讀者,只要他們都處於只讀模式。 但是,在第 3 步中,由於 HDFStore 緩存了文件,因此它不會返回在連接打開后追加的行。 有沒有辦法在不重新打開商店的情況下選擇新添加的行?

在做了更多研究之后,我得出結論,這對於 HDF 文件是不可能的。 實現上述功能的唯一可靠方法是使用數據庫(SQLite 最接近 - 讀/寫速度低於 HDF,但仍比成熟的數據庫(如 Postgres 或 MySQL)快)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM