[英]How can I use golang apache arrow library to read repeated field for parquet?
我正在使用 apache 箭頭 golang 庫來讀取鑲木地板。 沒有重復的列似乎很簡單,但我怎樣才能閱讀重復的字段? ...
[英]How can I use golang apache arrow library to read repeated field for parquet?
我正在使用 apache 箭頭 golang 庫來讀取鑲木地板。 沒有重復的列似乎很簡單,但我怎樣才能閱讀重復的字段? ...
[英]Combining 2 parquets that are too large for memory together
假設我有兩個數據集存儲為我想要合並的鑲木地板。 我可以讀入它們, rbind它們,然后將它們吐回鑲木地板中,就像這樣:# Load library library(arrow) # Create dummy datasets write_dataset(mtcars, path = "~/foo" ...
[英]Error when converting large .txt file to parquet format (apache-arrow)
我正在處理一個大的.txt文件,我正在嘗試使用arrow來處理它。 我打開數據集,檢查了一下,看起來沒問題。 接下來,我嘗試根據名為 COUNTY 的列對其進行分區並將其轉換為鑲木地板格式。 但是,我收到此錯誤: 我究竟做錯了什么? 完整代碼: ...
[英]How to create Apache Arrow vectors in Java, pass them to C++ code through JNI, read/write them in C++
我一直在閱讀 Apache Arrow 文檔,我已經弄清楚如何在 Java 和 C++ 中使用它。但我想做的是將一些工作從 Java 卸載到 JNI (C/C++) 代碼,以及文檔(例如https://arrow.apache.org/docs/java/cdata.html )似乎沒有涵蓋我的用例 ...
[英]Apache Arrow Flight: Getting sorted data from multiple endpoints
根據文檔 ( https://arrow.apache.org/docs/dev/format/Flight.html ),Apache Arrow Flight 客戶端無法從多個端點獲取排序數據。 看來這是設計使然。 在介紹文檔( https://arrow.apache.org/blog/201 ...
[英]pyarrow: Parse non-standard date
我有一個 CSV 文件,其中包含使用非標准日期格式的列,需要稍微清理一下。 我如何將其解析為 pyarrow 並寫入鑲木地板? 格式是: %Y%m%d例如: 19991231 %Y%m00 ex: 19991200 (年和月,但沒有指定日期) %Y0000例如: 19990000 (僅指定年份 ...
[英]What's the purpose of using pointer to std::shared_ptr in C++ library Gandiva
我正在 Apache Arrow 中學習 Gandiva 模塊。 我發現許多 API 需要std::shared_ptr<T>*形式的參數,例如這里是一個典型的 API: 我不明白為什么它使用指向shared_ptr的指針而不是簡單的shared_ptr 。 以我的理解,在C++中應該盡 ...
[英]Converting characters to timestamp in an arrow table in R
我想將字符串轉換為箭頭表中的時間戳。 我正在使用箭頭,因為我正在處理大量相當大的 csvs。 我成功地將字符串轉換為數據框中的日期時間 object,但相同的操作會為箭頭表生成NA 。 如何將字符串轉換為箭頭表中的時間戳? 請看下面的例子。 ...
[英]Identify partitioning variable in parquet file
是否有一種簡單的方法來識別用於分區鑲木地板數據集的變量? 例如,下面我使用mtcars數據集創建了一個玩具鑲木地板。# Load library library(arrow) # Write data to parquet mtcars |> write_dataset("~/boop", ...
[英]How to implement modulo operation using PyArrow Expression API so that I can use it in filter?
我想分片箭頭數據集。 為此,我想使用單調遞增的字段並在以下過濾器中實現分片操作,我可以在 pyarrow 掃描儀中使用它: pc.field('id') % num_shards == shard_id 關於如何使用 PyArrow 計算 API 執行此操作的任何想法? ...
[英]What is the best way to send Arrow data to the browser?
我在服務器(Python)上有 Apache 箭頭數據,需要在瀏覽器中使用它。 Arrow Flight 似乎沒有在 JS 中實現。 將數據發送到瀏覽器並在那里使用的最佳選擇是什么? 我什至不需要在瀏覽器中使用箭頭格式。 這個問題還沒有收到任何回復,所以我為我正在尋找的內容添加了一些額外的標准: ...
[英]Missing output or input when running c++ binary in docker
使用cmake在docker構建器中構建一個 cpp 二進制文件 然后將構建的二進制文件復制到最終圖像(也是ubuntu:focal )到WORKDIR 。 使用docker run掛起 docker(即使使用-d ),沒有輸入和 output。要停止 docker,我必須從另一個終端終止它。 但是 ...
[英]Check if an arrow Array created from an atomic vector makes a copy of that vector
我正在嘗試檢查從 r 對象創建箭頭數組是否會創建副本。 我創建了一個數組,然后從該數組創建了一個原子向量,但內存地址似乎不一樣......我做錯了什么嗎? ...
[英]arrow::open_dateset not evaluating skip_rows in R
我正在嘗試使用箭頭讀取大量 .csv 文件,因為數據太大而無法按原樣使用。 在每個文件中,前兩行僅在一列中包含元數據。 我試圖跳過這兩行並評估其余數據,但我遇到了: 我的數據也沒有列名,我想知道這是否是讀取模式的問題? 我無法提供示例數據,因為我無法創建一個虛擬數據框,其中第 1:2 行有 1 列 ...
[英]R Arrow returns wrong column when multiple group_by / summarise
我有一個包含多個分組依據 - 匯總語句的查詢。 當我取消分組之間的數據時,一切正常,但如果我不這樣做,其中一列將被另一列替換。 我希望列不會更改。 例如在下面的示例中,變量gender應該是F或M而不是Group Xlibrary(dplyr) library(arrow) # Create sa ...
[英]rlang::hash cannot differentiate between arrow queries
我使用memoise package 來緩存對arrow數據集的查詢,但我有時會在哈希中遇到不匹配/“沖突”,因此會返回錯誤的值。 我已經隔離了問題並將其復制到下面的 MWE 中。 問題是首先過濾然后總結的箭頭查詢的rlang::hash() ( memoise使用)不依賴於過濾器。 我的問題是:這 ...
[英]PyArrow: How to batch data from mongo into partitioned parquet in S3
我希望能夠將我的數據從 Mongo 存檔到 S3。 目前,我所做的是從 Mongo 讀取數據將其轉換為 pyarrow 表寫入 S3 它現在有效,但步驟 1 和 2 是一件大事,如果結果集很大,它需要以某種方式適應 memory? 我可以做更小的塊,但我認為這意味着我也會得到更小的鑲木地板文件,這不 ...
[英]How can I write an .arrow/.arrows file with several batches?
作為我當前任務的一部分,我需要將多個批次寫入 .arrow/.arrows 文件,然后從中讀取數據。 我怎樣才能做到這一點? 現在我正在做這樣的事情: 但這只增加了一個批次/塊? 老實說,我不確定我對這個概念的理解是否足夠,而且我找不到關於這個主題的太多信息。 如果你能給我指出一些關於這個主題的好 ...
[英]Different results of a full_join in arrow and dplyr
在tibble和arrow_table上使用full_join時,我得到不同的結果。 也許有人可以了解發生了什么事? ...
[英]Is the separate function work in arrow tables in R?
我想知道是否有任何解決方案可以將separate的 function 用於arrow表? 列數據組織應該比data.frame更快地執行這些類型的數據操作 ...