cost 89 ms
将 2 个对于 memory 来说太大的镶木地板组合在一起

[英]Combining 2 parquets that are too large for memory together

假设我有两个数据集存储为我想要合并的镶木地板。 我可以读入它们, rbind它们,然后将它们吐回镶木地板中,就像这样:# Load library library(arrow) # Create dummy datasets write_dataset(mtcars, path = "~/foo" ...

将 large.txt 文件转换为 parquet 格式时出错(apache-arrow)

[英]Error when converting large .txt file to parquet format (apache-arrow)

我正在处理一个大的.txt文件,我正在尝试使用arrow来处理它。 我打开数据集,检查了一下,看起来没问题。 接下来,我尝试根据名为 COUNTY 的列对其进行分区并将其转换为镶木地板格式。 但是,我收到此错误: 我究竟做错了什么? 完整代码: ...

如何在Java中创建Apache箭头向量,通过JNI传给C++代码,在C++中读/写

[英]How to create Apache Arrow vectors in Java, pass them to C++ code through JNI, read/write them in C++

我一直在阅读 Apache Arrow 文档,我已经弄清楚如何在 Java 和 C++ 中使用它。但我想做的是将一些工作从 Java 卸载到 JNI (C/C++) 代码,以及文档(例如https://arrow.apache.org/docs/java/cdata.html )似乎没有涵盖我的用例 ...

pyarrow:解析非标准日期

[英]pyarrow: Parse non-standard date

我有一个 CSV 文件,其中包含使用非标准日期格式的列,需要稍微清理一下。 我如何将其解析为 pyarrow 并写入镶木地板? 格式是: %Y%m%d例如: 19991231 %Y%m00 ex: 19991200 (年和月,但没有指定日期) %Y0000例如: 19990000 (仅指定年份 ...

在 C++ 库 Gandiva 中使用指向 std::shared_ptr 的指针的目的是什么

[英]What's the purpose of using pointer to std::shared_ptr in C++ library Gandiva

我正在 Apache Arrow 中学习 Gandiva 模块。 我发现许多 API 需要std::shared_ptr<T>*形式的参数,例如这里是一个典型的 API: 我不明白为什么它使用指向shared_ptr的指针而不是简单的shared_ptr 。 以我的理解,在C++中应该尽 ...

R中箭头表中的字符转换为时间戳

[英]Converting characters to timestamp in an arrow table in R

我想将字符串转换为箭头表中的时间戳。 我正在使用箭头,因为我正在处理大量相当大的 csvs。 我成功地将字符串转换为数据框中的日期时间 object,但相同的操作会为箭头表生成NA 。 如何将字符串转换为箭头表中的时间戳? 请看下面的例子。 ...

识别镶木地板文件中的分区变量

[英]Identify partitioning variable in parquet file

是否有一种简单的方法来识别用于分区镶木地板数据集的变量? 例如,下面我使用mtcars数据集创建了一个玩具镶木地板。# Load library library(arrow) # Write data to parquet mtcars |> write_dataset("~/boop", ...

如何使用 PyArrow 表达式 API 实现模运算以便我可以在过滤器中使用它?

[英]How to implement modulo operation using PyArrow Expression API so that I can use it in filter?

我想分片箭头数据集。 为此,我想使用单调递增的字段并在以下过滤器中实现分片操作,我可以在 pyarrow 扫描仪中使用它: pc.field('id') % num_shards == shard_id 关于如何使用 PyArrow 计算 API 执行此操作的任何想法? ...

将 Arrow 数据发送到浏览器的最佳方式是什么?

[英]What is the best way to send Arrow data to the browser?

我在服务器(Python)上有 Apache 箭头数据,需要在浏览器中使用它。 Arrow Flight 似乎没有在 JS 中实现。 将数据发送到浏览器并在那里使用的最佳选择是什么? 我什至不需要在浏览器中使用箭头格式。 这个问题还没有收到任何回复,所以我为我正在寻找的内容添加了一些额外的标准: ...

docker中运行c++二进制时缺少output或输入

[英]Missing output or input when running c++ binary in docker

使用cmake在docker构建器中构建一个 cpp 二进制文件 然后将构建的二进制文件复制到最终图像(也是ubuntu:focal )到WORKDIR 。 使用docker run挂起 docker(即使使用-d ),没有输入和 output。要停止 docker,我必须从另一个终端终止它。 但是 ...

检查从原子向量创建的箭头数组是否复制了该向量

[英]Check if an arrow Array created from an atomic vector makes a copy of that vector

我正在尝试检查从 r 对象创建箭头数组是否会创建副本。 我创建了一个数组,然后从该数组创建了一个原子向量,但内存地址似乎不一样......我做错了什么吗? ...

arrow::open_dateset 不评估 R 中的 skip_rows

[英]arrow::open_dateset not evaluating skip_rows in R

我正在尝试使用箭头读取大量 .csv 文件,因为数据太大而无法按原样使用。 在每个文件中,前两行仅在一列中包含元数据。 我试图跳过这两行并评估其余数据,但我遇到了: 我的数据也没有列名,我想知道这是否是读取模式的问题? 我无法提供示例数据,因为我无法创建一个虚拟数据框,其中第 1:2 行有 1 列 ...

当多个 group_by / summarize 时,R Arrow 返回错误的列

[英]R Arrow returns wrong column when multiple group_by / summarise

我有一个包含多个分组依据 - 汇总语句的查询。 当我取消分组之间的数据时,一切正常,但如果我不这样做,其中一列将被另一列替换。 我希望列不会更改。 例如在下面的示例中,变量gender应该是F或M而不是Group Xlibrary(dplyr) library(arrow) # Create sa ...

rlang::hash 无法区分箭头查询

[英]rlang::hash cannot differentiate between arrow queries

我使用memoise package 来缓存对arrow数据集的查询,但我有时会在哈希中遇到不匹配/“冲突”,因此会返回错误的值。 我已经隔离了问题并将其复制到下面的 MWE 中。 问题是首先过滤然后总结的箭头查询的rlang::hash() ( memoise使用)不依赖于过滤器。 我的问题是:这 ...

PyArrow:如何将数据从 mongo 批处理到 S3 中的分区镶木地板

[英]PyArrow: How to batch data from mongo into partitioned parquet in S3

我希望能够将我的数据从 Mongo 存档到 S3。 目前,我所做的是从 Mongo 读取数据将其转换为 pyarrow 表写入 S3 它现在有效,但步骤 1 和 2 是一件大事,如果结果集很大,它需要以某种方式适应 memory? 我可以做更小的块,但我认为这意味着我也会得到更小的镶木地板文件,这不 ...

我怎样才能写一个 .arrow/.arrows 文件有几个批次?

[英]How can I write an .arrow/.arrows file with several batches?

作为我当前任务的一部分,我需要将多个批次写入 .arrow/.arrows 文件,然后从中读取数据。 我怎样才能做到这一点? 现在我正在做这样的事情: 但这只增加了一个批次/块? 老实说,我不确定我对这个概念的理解是否足够,而且我找不到关于这个主题的太多信息。 如果你能给我指出一些关于这个主题的好 ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM