標簽[bcolz] - 堆棧內存溢出

[英]zipline installation error : failed building wheel for bcolz

我正在嘗試在 mac os 上的虛擬環境中安裝 zipline。 Python 版本 = 3.6 / numpy，預裝了 cython 當我在虛擬環境中嘗試pip install zipline時，出現以下錯誤。（控制台上打印了很多警告，但我認為下面的警告是我問題的關鍵）我試過安裝 ...

[英]Package fails in docker container. Reinstall and it works. Why?

我正在運行一個可以在多個不同主機上完美運行的Docker容器。但是，當我在AWS cr1.8xlarge上運行時，其中一個軟件包（bcolz）失敗，並顯示“無效指令”錯誤。我執行到容器並運行bcolz.test（）失敗。但是，如果我用pip卸載bcolz，然后用pip重新安裝相同 ...

[英]Link Errors Installing Python Blosc

我安裝了C-Blosc庫，沒問題，但是當我嘗試安裝python-blosc並轉到python setup.py build_ext --inplace --blosc="C:\\\\Program Files (x86)\\\\blosc"我得到了鏈接錯誤。這是怎么回事？我有Wind ...

[英]Keras - with regards to performance - is bcolz better than using datagenerator?

我正在努力解決以下幾點：什么時候應該使用bcolz代替keras的數據生成器？好像keras的model具有api來批量接收數組或定義數據生成器的api。將bcolz與fit() api一起使用時， fit_generator()比將數據生成器與fit_generato ...

[英]Writing larger than memory data into bcolz

所以我得到了這個大的刻度數據文件（一天60GB未壓縮），我想把它放入bcolz。我打算用chunk讀取這個文件塊並將它們附加到bcolz中。據我所知，bcolz只支持追加列而不是行。但是，我會說，滴答數據比列式更依賴行。例如：有沒有人對如何做到這一點有任何建議？ ...

[英]data size blows out when storing in bcolz

我有一個約有700萬行和3列，2個數字和1個由〜20M個不同的字符串uuid組成的數據集。數據大約需要3G的csv文件，castra可以將其存儲在大約2G的文件中。我想用此數據測試bcolz。我試過了在耗盡磁盤上的inode並崩潰之前，它生成了約70G的數據。將 ...

[英]Loading larger than memory data into bcolz from Redshift

我想將redshift查詢的輸出保存在本地。我嘗試使用blaze/odo但使用默認設置嘗試在寫入之前嘗試將所有數據加載到內存中，然后嘗試流式傳輸數據會引發其他錯誤，描述了另一個問題：使用Blaze和SqlAlchemy的流式傳輸結果由於該問題沒有任何答案，因此我正在尋找一種替代方法 ...

[英]Pandas / odo / bcolz selective loading of rows from a large CSV file

假設我們有大型的csv文件（例如200 GB），其中只有一小部分行（例如0.1％或更少）包含感興趣的數據。假設我們將這樣的條件定義為：一個特定的列包含一個預定義列表中的值（例如，感興趣的10K值）。 odo或Pandas是否有助於將行選擇性加載到數據幀中的方法？ ...

[英]Why does dask.dataframe compute() result gives IndexError in specific cases? How to find reason of async error?

當由於數據量大而使用最新版本的dask （'0.7.5'，github：[a1]）時，我能夠通過dask.dataframe api進行分區計算。但是對於存儲為記錄在bcolz（'0.12.1'，github：[a2]）中的大型DataFrame，執行此操作時出現IndexError： ...

[英]performance of appending data into a bcolz table

我才剛剛開始使用bcolz包，並在ctables上運行該教程。使用fromiter函數創建表，即：速度很快，在我的計算機（帶SSD存儲的2.7GHz Core i7）上大約需要30毫秒，但是第二個示例：非常慢（45秒）。通過不寫入磁盤，我可以使其更接近fromite ...

[英]Convert multi-node PyTable to bcolz

我正在嘗試對bcolz進行試驗，看看它是否與我需要做的兼容。我有一個大約1100萬行和大約120列的數據集。當前，此數據以PyTables“表格”格式存儲在HDF5文件中。數據在HDF5文件中分為幾個“組”（單獨的節點），每個組包含不同的列。我要做的是將所有這些數據轉換為磁盤 ...