python - 使用python為大於內存數據分析選擇框架

我已經做了什么

我用dask讀取.csv文件並將其轉換為磁盤上的castra格式以獲得更高的性能。 我還查詢了musicbrainz API，並使用peewee填充了sqlite數據庫，並提供了一些相關結果。 我選擇使用數據庫而不是另一個dask.dataframe，因為該過程需要幾天時間，並且我不想在發生任何故障時丟失數據。

我還沒有開始真正分析數據。 在重新安排數據的過程中，我設法弄得一團糟。

替代方法

我似乎在為這項任務選擇最好的工具時犯了一些錯誤。 Castra可能還不夠成熟，我認為這是問題的一部分。 另外，最好選擇SQLAlchemy而不是peewee，因為它使用的是pandas和peewee。

Blaze + HDF5可能是dask + castra的良好替代品，主要是因為HDF5比castra更穩定/成熟/完整，而且火焰對數據存儲的看法較少。 例如，它可以簡化SQL DB到主數據集的連接。

另一方面，我熟悉pandas和dask暴露“相同”的API。 有了dask，我也獲得了並行性。

TL; DR

我有一個大於內存數據集+ sqlite DB，我需要加入主數據集。 我懷疑是否使用dask + castra（不知道dask.dataframe的其他相關數據存儲），並使用SQLAlchemy一次將部分SQL DB加載到帶有pandas的數據框中。 我看到的最好的替代方案是切換到火焰+ HDF5。 在這種情況下你會建議什么？

歡迎任何其他選擇/意見。 我希望這對SO來說足夠具體。