標簽[apache-arrow] - 堆棧內存溢出

[英]How can I use golang apache arrow library to read repeated field for parquet?

我正在使用 apache 箭頭 golang 庫來讀取鑲木地板。沒有重復的列似乎很簡單，但我怎樣才能閱讀重復的字段？ ...

[英]Combining 2 parquets that are too large for memory together

假設我有兩個數據集存儲為我想要合並的鑲木地板。我可以讀入它們， rbind它們，然后將它們吐回鑲木地板中，就像這樣：# Load library library(arrow) # Create dummy datasets write_dataset(mtcars, path = "~/foo" ...

將 large.txt 文件轉換為 parquet 格式時出錯（apache-arrow）

[英]Error when converting large .txt file to parquet format (apache-arrow)

我正在處理一個大的.txt文件，我正在嘗試使用arrow來處理它。我打開數據集，檢查了一下，看起來沒問題。接下來，我嘗試根據名為 COUNTY 的列對其進行分區並將其轉換為鑲木地板格式。但是，我收到此錯誤：我究竟做錯了什么？完整代碼： ...

如何在Java中創建Apache箭頭向量，通過JNI傳給C++代碼，在C++中讀/寫

[英]How to create Apache Arrow vectors in Java, pass them to C++ code through JNI, read/write them in C++

我一直在閱讀 Apache Arrow 文檔，我已經弄清楚如何在 Java 和 C++ 中使用它。但我想做的是將一些工作從 Java 卸載到 JNI (C/C++) 代碼，以及文檔（例如https://arrow.apache.org/docs/java/cdata.html ）似乎沒有涵蓋我的用例 ...

Apache Arrow Flight：從多個端點獲取排序數據

[英]Apache Arrow Flight: Getting sorted data from multiple endpoints

根據文檔 ( https://arrow.apache.org/docs/dev/format/Flight.html )，Apache Arrow Flight 客戶端無法從多個端點獲取排序數據。看來這是設計使然。在介紹文檔（ https://arrow.apache.org/blog/201 ...

pyarrow：解析非標准日期

[英]pyarrow: Parse non-standard date

我有一個 CSV 文件，其中包含使用非標准日期格式的列，需要稍微清理一下。我如何將其解析為 pyarrow 並寫入鑲木地板？格式是： %Y%m%d例如： 19991231 %Y%m00 ex: 19991200 (年和月，但沒有指定日期) %Y0000例如： 19990000 （僅指定年份 ...

在 C++ 庫 Gandiva 中使用指向 std::shared_ptr 的指針的目的是什么

[英]What's the purpose of using pointer to std::shared_ptr in C++ library Gandiva

我正在 Apache Arrow 中學習 Gandiva 模塊。我發現許多 API 需要std::shared_ptr<T>*形式的參數，例如這里是一個典型的 API：我不明白為什么它使用指向shared_ptr的指針而不是簡單的shared_ptr 。以我的理解，在C++中應該盡 ...

R中箭頭表中的字符轉換為時間戳

[英]Converting characters to timestamp in an arrow table in R

我想將字符串轉換為箭頭表中的時間戳。我正在使用箭頭，因為我正在處理大量相當大的 csvs。我成功地將字符串轉換為數據框中的日期時間 object，但相同的操作會為箭頭表生成NA 。如何將字符串轉換為箭頭表中的時間戳？請看下面的例子。 ...

識別鑲木地板文件中的分區變量

[英]Identify partitioning variable in parquet file

是否有一種簡單的方法來識別用於分區鑲木地板數據集的變量？例如，下面我使用mtcars數據集創建了一個玩具鑲木地板。# Load library library(arrow) # Write data to parquet mtcars |> write_dataset("~/boop", ...

如何使用 PyArrow 表達式 API 實現模運算以便我可以在過濾器中使用它？

[英]How to implement modulo operation using PyArrow Expression API so that I can use it in filter?

我想分片箭頭數據集。為此，我想使用單調遞增的字段並在以下過濾器中實現分片操作，我可以在 pyarrow 掃描儀中使用它： pc.field('id') % num_shards == shard_id 關於如何使用 PyArrow 計算 API 執行此操作的任何想法？ ...

將 Arrow 數據發送到瀏覽器的最佳方式是什么？

[英]What is the best way to send Arrow data to the browser?

我在服務器（Python）上有 Apache 箭頭數據，需要在瀏覽器中使用它。 Arrow Flight 似乎沒有在 JS 中實現。將數據發送到瀏覽器並在那里使用的最佳選擇是什么？我什至不需要在瀏覽器中使用箭頭格式。這個問題還沒有收到任何回復，所以我為我正在尋找的內容添加了一些額外的標准： ...

docker中運行c++二進制時缺少output或輸入

[英]Missing output or input when running c++ binary in docker

使用cmake在docker構建器中構建一個 cpp 二進制文件然后將構建的二進制文件復制到最終圖像（也是ubuntu:focal ）到WORKDIR 。使用docker run掛起 docker（即使使用-d ），沒有輸入和 output。要停止 docker，我必須從另一個終端終止它。但是 ...

檢查從原子向量創建的箭頭數組是否復制了該向量

[英]Check if an arrow Array created from an atomic vector makes a copy of that vector

我正在嘗試檢查從 r 對象創建箭頭數組是否會創建副本。我創建了一個數組，然后從該數組創建了一個原子向量，但內存地址似乎不一樣......我做錯了什么嗎？ ...

arrow::open_dateset 不評估 R 中的 skip_rows

[英]arrow::open_dateset not evaluating skip_rows in R

我正在嘗試使用箭頭讀取大量 .csv 文件，因為數據太大而無法按原樣使用。在每個文件中，前兩行僅在一列中包含元數據。我試圖跳過這兩行並評估其余數據，但我遇到了：我的數據也沒有列名，我想知道這是否是讀取模式的問題？我無法提供示例數據，因為我無法創建一個虛擬數據框，其中第 1:2 行有 1 列 ...

當多個 group_by / summarize 時，R Arrow 返回錯誤的列

[英]R Arrow returns wrong column when multiple group_by / summarise

我有一個包含多個分組依據 - 匯總語句的查詢。當我取消分組之間的數據時，一切正常，但如果我不這樣做，其中一列將被另一列替換。我希望列不會更改。例如在下面的示例中，變量gender應該是F或M而不是Group Xlibrary(dplyr) library(arrow) # Create sa ...

rlang::hash 無法區分箭頭查詢

[英]rlang::hash cannot differentiate between arrow queries

我使用memoise package 來緩存對arrow數據集的查詢，但我有時會在哈希中遇到不匹配/“沖突”，因此會返回錯誤的值。我已經隔離了問題並將其復制到下面的 MWE 中。問題是首先過濾然后總結的箭頭查詢的rlang::hash() （ memoise使用）不依賴於過濾器。我的問題是：這 ...

PyArrow：如何將數據從 mongo 批處理到 S3 中的分區鑲木地板

[英]PyArrow: How to batch data from mongo into partitioned parquet in S3

我希望能夠將我的數據從 Mongo 存檔到 S3。目前，我所做的是從 Mongo 讀取數據將其轉換為 pyarrow 表寫入 S3 它現在有效，但步驟 1 和 2 是一件大事，如果結果集很大，它需要以某種方式適應 memory？我可以做更小的塊，但我認為這意味着我也會得到更小的鑲木地板文件，這不 ...

我怎樣才能寫一個 .arrow/.arrows 文件有幾個批次？

[英]How can I write an .arrow/.arrows file with several batches?

作為我當前任務的一部分，我需要將多個批次寫入 .arrow/.arrows 文件，然后從中讀取數據。我怎樣才能做到這一點？現在我正在做這樣的事情：但這只增加了一個批次/塊？老實說，我不確定我對這個概念的理解是否足夠，而且我找不到關於這個主題的太多信息。如果你能給我指出一些關於這個主題的好 ...

箭頭中的 full_join 和 dplyr 的不同結果

[英]Different results of a full_join in arrow and dplyr

在tibble和arrow_table上使用full_join時，我得到不同的結果。也許有人可以了解發生了什么事？ ...

單獨的 function 是否在 R 的箭頭表中工作？

[英]Is the separate function work in arrow tables in R?

我想知道是否有任何解決方案可以將separate的 function 用於arrow表？列數據組織應該比data.frame更快地執行這些類型的數據操作 ...