
[英]How can I use golang apache arrow library to read repeated field for parquet?
我正在使用 apache 箭头 golang 库来读取镶木地板。 没有重复的列似乎很简单,但我怎样才能阅读重复的字段? ...
[英]How can I use golang apache arrow library to read repeated field for parquet?
我正在使用 apache 箭头 golang 库来读取镶木地板。 没有重复的列似乎很简单,但我怎样才能阅读重复的字段? ...
[英]Combining 2 parquets that are too large for memory together
假设我有两个数据集存储为我想要合并的镶木地板。 我可以读入它们, rbind它们,然后将它们吐回镶木地板中,就像这样:# Load library library(arrow) # Create dummy datasets write_dataset(mtcars, path = "~/foo" ...
[英]Error when converting large .txt file to parquet format (apache-arrow)
我正在处理一个大的.txt文件,我正在尝试使用arrow来处理它。 我打开数据集,检查了一下,看起来没问题。 接下来,我尝试根据名为 COUNTY 的列对其进行分区并将其转换为镶木地板格式。 但是,我收到此错误: 我究竟做错了什么? 完整代码: ...
[英]How to create Apache Arrow vectors in Java, pass them to C++ code through JNI, read/write them in C++
我一直在阅读 Apache Arrow 文档,我已经弄清楚如何在 Java 和 C++ 中使用它。但我想做的是将一些工作从 Java 卸载到 JNI (C/C++) 代码,以及文档(例如https://arrow.apache.org/docs/java/cdata.html )似乎没有涵盖我的用例 ...
[英]Apache Arrow Flight: Getting sorted data from multiple endpoints
根据文档 ( https://arrow.apache.org/docs/dev/format/Flight.html ),Apache Arrow Flight 客户端无法从多个端点获取排序数据。 看来这是设计使然。 在介绍文档( https://arrow.apache.org/blog/201 ...
[英]pyarrow: Parse non-standard date
我有一个 CSV 文件,其中包含使用非标准日期格式的列,需要稍微清理一下。 我如何将其解析为 pyarrow 并写入镶木地板? 格式是: %Y%m%d例如: 19991231 %Y%m00 ex: 19991200 (年和月,但没有指定日期) %Y0000例如: 19990000 (仅指定年份 ...
[英]What's the purpose of using pointer to std::shared_ptr in C++ library Gandiva
我正在 Apache Arrow 中学习 Gandiva 模块。 我发现许多 API 需要std::shared_ptr<T>*形式的参数,例如这里是一个典型的 API: 我不明白为什么它使用指向shared_ptr的指针而不是简单的shared_ptr 。 以我的理解,在C++中应该尽 ...
[英]Converting characters to timestamp in an arrow table in R
我想将字符串转换为箭头表中的时间戳。 我正在使用箭头,因为我正在处理大量相当大的 csvs。 我成功地将字符串转换为数据框中的日期时间 object,但相同的操作会为箭头表生成NA 。 如何将字符串转换为箭头表中的时间戳? 请看下面的例子。 ...
[英]Identify partitioning variable in parquet file
是否有一种简单的方法来识别用于分区镶木地板数据集的变量? 例如,下面我使用mtcars数据集创建了一个玩具镶木地板。# Load library library(arrow) # Write data to parquet mtcars |> write_dataset("~/boop", ...
[英]How to implement modulo operation using PyArrow Expression API so that I can use it in filter?
我想分片箭头数据集。 为此,我想使用单调递增的字段并在以下过滤器中实现分片操作,我可以在 pyarrow 扫描仪中使用它: pc.field('id') % num_shards == shard_id 关于如何使用 PyArrow 计算 API 执行此操作的任何想法? ...
[英]What is the best way to send Arrow data to the browser?
我在服务器(Python)上有 Apache 箭头数据,需要在浏览器中使用它。 Arrow Flight 似乎没有在 JS 中实现。 将数据发送到浏览器并在那里使用的最佳选择是什么? 我什至不需要在浏览器中使用箭头格式。 这个问题还没有收到任何回复,所以我为我正在寻找的内容添加了一些额外的标准: ...
[英]Missing output or input when running c++ binary in docker
使用cmake在docker构建器中构建一个 cpp 二进制文件 然后将构建的二进制文件复制到最终图像(也是ubuntu:focal )到WORKDIR 。 使用docker run挂起 docker(即使使用-d ),没有输入和 output。要停止 docker,我必须从另一个终端终止它。 但是 ...
[英]Check if an arrow Array created from an atomic vector makes a copy of that vector
我正在尝试检查从 r 对象创建箭头数组是否会创建副本。 我创建了一个数组,然后从该数组创建了一个原子向量,但内存地址似乎不一样......我做错了什么吗? ...
[英]arrow::open_dateset not evaluating skip_rows in R
我正在尝试使用箭头读取大量 .csv 文件,因为数据太大而无法按原样使用。 在每个文件中,前两行仅在一列中包含元数据。 我试图跳过这两行并评估其余数据,但我遇到了: 我的数据也没有列名,我想知道这是否是读取模式的问题? 我无法提供示例数据,因为我无法创建一个虚拟数据框,其中第 1:2 行有 1 列 ...
[英]R Arrow returns wrong column when multiple group_by / summarise
我有一个包含多个分组依据 - 汇总语句的查询。 当我取消分组之间的数据时,一切正常,但如果我不这样做,其中一列将被另一列替换。 我希望列不会更改。 例如在下面的示例中,变量gender应该是F或M而不是Group Xlibrary(dplyr) library(arrow) # Create sa ...
[英]rlang::hash cannot differentiate between arrow queries
我使用memoise package 来缓存对arrow数据集的查询,但我有时会在哈希中遇到不匹配/“冲突”,因此会返回错误的值。 我已经隔离了问题并将其复制到下面的 MWE 中。 问题是首先过滤然后总结的箭头查询的rlang::hash() ( memoise使用)不依赖于过滤器。 我的问题是:这 ...
[英]PyArrow: How to batch data from mongo into partitioned parquet in S3
我希望能够将我的数据从 Mongo 存档到 S3。 目前,我所做的是从 Mongo 读取数据将其转换为 pyarrow 表写入 S3 它现在有效,但步骤 1 和 2 是一件大事,如果结果集很大,它需要以某种方式适应 memory? 我可以做更小的块,但我认为这意味着我也会得到更小的镶木地板文件,这不 ...
[英]How can I write an .arrow/.arrows file with several batches?
作为我当前任务的一部分,我需要将多个批次写入 .arrow/.arrows 文件,然后从中读取数据。 我怎样才能做到这一点? 现在我正在做这样的事情: 但这只增加了一个批次/块? 老实说,我不确定我对这个概念的理解是否足够,而且我找不到关于这个主题的太多信息。 如果你能给我指出一些关于这个主题的好 ...
[英]Different results of a full_join in arrow and dplyr
在tibble和arrow_table上使用full_join时,我得到不同的结果。 也许有人可以了解发生了什么事? ...
[英]Is the separate function work in arrow tables in R?
我想知道是否有任何解决方案可以将separate的 function 用于arrow表? 列数据组织应该比data.frame更快地执行这些类型的数据操作 ...