簡體 English 中英

pydata BLAZE 項目的發展方向在哪里？

[英]Where is the pydata BLAZE project heading?

原文 2018-12-06 03:12:06 0 2 dask/ blaze/ odo/ datashape

我發現 blaze 生態系統* 令人驚嘆，因為它涵蓋了大部分數據工程用例。 在 2015-2016 年期間，這些項目肯定有很多興趣，但最近卻被忽略了。 我說這是看 github 存儲庫上的提交。

所以我對社區的問題是

- 2016 年發生了什么導致失去興趣？

- 是否有其他基於 python 的庫取代了 blaze？

火焰生態系統：

Blaze：查詢不同存儲系統數據的接口
Dask：通過任務調度和阻塞算法進行並行計算
Datashape：一種數據描述語言
DyND：一個用於動態多維數組的 C++ 庫
Odo：不同存儲系統之間的數據遷移

參考資料： http ://blaze.pydata.org/

2 個解決方案

我可以給出部分圖片，盡管其他部分涉及更多。 Blaze 既是一個將數據工程思想孵化到已發布的 oss 包中的傘式項目，也是一個專注於數據幀符號操作並將其轉換為各種后端執行引擎（尤其是數據庫服務）的包本身。 至關重要的是，Blaze 想成為解決范圍非常廣泛的問題的（開始）解決方案，特別是翻譯層變得非常龐大且難以維護，並且試圖迎合所有問題。 限制了符號層可以提供的操作范圍。

就傘式項目而言，Blaze 是成功的。 許多始於 Blaze 的想法滲透到生態系統中。 Blaze 最突出的單個項目可能是 Dask，雖然它最初計划作為 Blaze 的執行層，但它實現了一個更大的數據幀操作 API，以及其他高級集合和任意圖形操作。 甚至完全符號化的優化也存在於 Dask 中，盡管這可能不那么完整。 其他 Anaconda 穩定的項目，如 numba 和 bokeh 都受到了 Blaze 的影響，但我不會在這里談論它們。

就 datashape/dynd 而言，這是一個有點擁擠的空間，有許多其他相關項目（xnd、uarray 等）和可以粗略地認為是“numpy 2”（即，更全面、更靈活地表示復雜數據）的想法布局及其描述）。 這還沒有真正被社區采用，幾乎所有東西都使用 numpy 的類型系統（箭頭在內部做的事情是一個明顯的例外）。

最后，對於數據格式和 Odo，我鼓勵您考慮Intake ，它可以看作是繼承者，它可以提供更多的功能，例如數據源編目，它通過將操作范圍限制在讀取端來實現。 Odo 的大型交互網絡也是一個難以維護的多對多問題，通過使事情變得更簡單，Intake 希望成為數據加載庫的實際層和描述位置的主要方式，數據的描述和參數化。 不過，Odo 並沒有死，所以如果文件轉換正是您所需要的，您仍然可以使用它。

我一直在尋找一個類似於 odo 的項目，用於將 csv 數據加載到各種來源。 一個 odo 問題 ( https://github.com/blaze/odo/issues/614 ) 推薦了 d6tstack ，目前似乎正在維護。

在實踐中，滾動您自己的 csv 加載器通常同樣容易，在這種情況下， tableschema項目非常方便。 它自動從 csv 文件推斷數據類型。

如何在大火中讀取制表符分隔的CSV？

[英]How do I read tabulator separated CSV in blaze?

dask.datasets 在哪里？

[英]Where is dask.datasets?

numpy where 的 dask 等價物是什么？

[英]What is the dask equivalent of numpy where?

Numpy where 函數在 Pandas 中等效

[英]Numpy where function equivalent in pandas

Dask Dataframe- read_sql_table - where 條件

[英]Dask Dataframe- read_sql_table - where condition

Dask：SSHCluster 工作人員在哪里登錄？（KilledWorker 例外）

[英]Dask: Where do SSHCluster workers log to? (KilledWorker exception)

由於缺少權限，我可以在 GCP 的哪個位置看到被拒絕的 API 請求？

[英]Where in GCP can I see rejected API requests due to lacking permissions?

是否計划將#Dask 儀表板與 Juoyter 項目集成

[英]Are there plans to integrate the #Dask dashboard in with project Juoyter

將數據幀寫入CSV，將列表轉換為JSON數組

[英]Writing a dataframe to CSV where lists are converted to JSON arrays

在 juputerlab 上運行時 dask 在哪里存儲文件

[英]Where does dask store files while running on juputerlab

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在大火中讀取制表符分隔的CSV？ dask.datasets 在哪里？ numpy where 的 dask 等價物是什么？ Numpy where 函數在 Pandas 中等效 Dask Dataframe- read_sql_table - where 條件 Dask：SSHCluster 工作人員在哪里登錄？（KilledWorker 例外）由於缺少權限，我可以在 GCP 的哪個位置看到被拒絕的 API 請求？是否計划將#Dask 儀表板與 Juoyter 項目集成將數據幀寫入CSV，將列表轉換為JSON數組在 juputerlab 上運行時 dask 在哪里存儲文件

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM