cost 341 ms
將 2 個對於 memory 來說太大的鑲木地板組合在一起

[英]Combining 2 parquets that are too large for memory together

假設我有兩個數據集存儲為我想要合並的鑲木地板。 我可以讀入它們, rbind它們,然后將它們吐回鑲木地板中,就像這樣:# Load library library(arrow) # Create dummy datasets write_dataset(mtcars, path = "~/foo" ...

將 large.txt 文件轉換為 parquet 格式時出錯(apache-arrow)

[英]Error when converting large .txt file to parquet format (apache-arrow)

我正在處理一個大的.txt文件,我正在嘗試使用arrow來處理它。 我打開數據集,檢查了一下,看起來沒問題。 接下來,我嘗試根據名為 COUNTY 的列對其進行分區並將其轉換為鑲木地板格式。 但是,我收到此錯誤: 我究竟做錯了什么? 完整代碼: ...

如何在Java中創建Apache箭頭向量,通過JNI傳給C++代碼,在C++中讀/寫

[英]How to create Apache Arrow vectors in Java, pass them to C++ code through JNI, read/write them in C++

我一直在閱讀 Apache Arrow 文檔,我已經弄清楚如何在 Java 和 C++ 中使用它。但我想做的是將一些工作從 Java 卸載到 JNI (C/C++) 代碼,以及文檔(例如https://arrow.apache.org/docs/java/cdata.html )似乎沒有涵蓋我的用例 ...

pyarrow:解析非標准日期

[英]pyarrow: Parse non-standard date

我有一個 CSV 文件,其中包含使用非標准日期格式的列,需要稍微清理一下。 我如何將其解析為 pyarrow 並寫入鑲木地板? 格式是: %Y%m%d例如: 19991231 %Y%m00 ex: 19991200 (年和月,但沒有指定日期) %Y0000例如: 19990000 (僅指定年份 ...

在 C++ 庫 Gandiva 中使用指向 std::shared_ptr 的指針的目的是什么

[英]What's the purpose of using pointer to std::shared_ptr in C++ library Gandiva

我正在 Apache Arrow 中學習 Gandiva 模塊。 我發現許多 API 需要std::shared_ptr<T>*形式的參數,例如這里是一個典型的 API: 我不明白為什么它使用指向shared_ptr的指針而不是簡單的shared_ptr 。 以我的理解,在C++中應該盡 ...

R中箭頭表中的字符轉換為時間戳

[英]Converting characters to timestamp in an arrow table in R

我想將字符串轉換為箭頭表中的時間戳。 我正在使用箭頭,因為我正在處理大量相當大的 csvs。 我成功地將字符串轉換為數據框中的日期時間 object,但相同的操作會為箭頭表生成NA 。 如何將字符串轉換為箭頭表中的時間戳? 請看下面的例子。 ...

識別鑲木地板文件中的分區變量

[英]Identify partitioning variable in parquet file

是否有一種簡單的方法來識別用於分區鑲木地板數據集的變量? 例如,下面我使用mtcars數據集創建了一個玩具鑲木地板。# Load library library(arrow) # Write data to parquet mtcars |> write_dataset("~/boop", ...

如何使用 PyArrow 表達式 API 實現模運算以便我可以在過濾器中使用它?

[英]How to implement modulo operation using PyArrow Expression API so that I can use it in filter?

我想分片箭頭數據集。 為此,我想使用單調遞增的字段並在以下過濾器中實現分片操作,我可以在 pyarrow 掃描儀中使用它: pc.field('id') % num_shards == shard_id 關於如何使用 PyArrow 計算 API 執行此操作的任何想法? ...

將 Arrow 數據發送到瀏覽器的最佳方式是什么?

[英]What is the best way to send Arrow data to the browser?

我在服務器(Python)上有 Apache 箭頭數據,需要在瀏覽器中使用它。 Arrow Flight 似乎沒有在 JS 中實現。 將數據發送到瀏覽器並在那里使用的最佳選擇是什么? 我什至不需要在瀏覽器中使用箭頭格式。 這個問題還沒有收到任何回復,所以我為我正在尋找的內容添加了一些額外的標准: ...

docker中運行c++二進制時缺少output或輸入

[英]Missing output or input when running c++ binary in docker

使用cmake在docker構建器中構建一個 cpp 二進制文件 然后將構建的二進制文件復制到最終圖像(也是ubuntu:focal )到WORKDIR 。 使用docker run掛起 docker(即使使用-d ),沒有輸入和 output。要停止 docker,我必須從另一個終端終止它。 但是 ...

檢查從原子向量創建的箭頭數組是否復制了該向量

[英]Check if an arrow Array created from an atomic vector makes a copy of that vector

我正在嘗試檢查從 r 對象創建箭頭數組是否會創建副本。 我創建了一個數組,然后從該數組創建了一個原子向量,但內存地址似乎不一樣......我做錯了什么嗎? ...

arrow::open_dateset 不評估 R 中的 skip_rows

[英]arrow::open_dateset not evaluating skip_rows in R

我正在嘗試使用箭頭讀取大量 .csv 文件,因為數據太大而無法按原樣使用。 在每個文件中,前兩行僅在一列中包含元數據。 我試圖跳過這兩行並評估其余數據,但我遇到了: 我的數據也沒有列名,我想知道這是否是讀取模式的問題? 我無法提供示例數據,因為我無法創建一個虛擬數據框,其中第 1:2 行有 1 列 ...

當多個 group_by / summarize 時,R Arrow 返回錯誤的列

[英]R Arrow returns wrong column when multiple group_by / summarise

我有一個包含多個分組依據 - 匯總語句的查詢。 當我取消分組之間的數據時,一切正常,但如果我不這樣做,其中一列將被另一列替換。 我希望列不會更改。 例如在下面的示例中,變量gender應該是F或M而不是Group Xlibrary(dplyr) library(arrow) # Create sa ...

rlang::hash 無法區分箭頭查詢

[英]rlang::hash cannot differentiate between arrow queries

我使用memoise package 來緩存對arrow數據集的查詢,但我有時會在哈希中遇到不匹配/“沖突”,因此會返回錯誤的值。 我已經隔離了問題並將其復制到下面的 MWE 中。 問題是首先過濾然后總結的箭頭查詢的rlang::hash() ( memoise使用)不依賴於過濾器。 我的問題是:這 ...

PyArrow:如何將數據從 mongo 批處理到 S3 中的分區鑲木地板

[英]PyArrow: How to batch data from mongo into partitioned parquet in S3

我希望能夠將我的數據從 Mongo 存檔到 S3。 目前,我所做的是從 Mongo 讀取數據將其轉換為 pyarrow 表寫入 S3 它現在有效,但步驟 1 和 2 是一件大事,如果結果集很大,它需要以某種方式適應 memory? 我可以做更小的塊,但我認為這意味着我也會得到更小的鑲木地板文件,這不 ...

我怎樣才能寫一個 .arrow/.arrows 文件有幾個批次?

[英]How can I write an .arrow/.arrows file with several batches?

作為我當前任務的一部分,我需要將多個批次寫入 .arrow/.arrows 文件,然后從中讀取數據。 我怎樣才能做到這一點? 現在我正在做這樣的事情: 但這只增加了一個批次/塊? 老實說,我不確定我對這個概念的理解是否足夠,而且我找不到關於這個主題的太多信息。 如果你能給我指出一些關於這個主題的好 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM