标签[pyarrow] - 堆栈内存溢出

pyarrow：迭代 ChunkedArray 的快速方法？（来自一张桌子） - pyarrow: fast way to iterate ChunkedArray? (from a table)

该数组包含 python 个对象，是表格的一部分。我需要按元素执行计算。计算本身返回一个数字列表，这些数字应该是表中的新列。我查看了文档，但无论如何都看不到迭代 pyarrow 数组？有没有办法或者我必须先将它转换为 numpy 数组？（这就是用户定义函数的文档示例所显示的内容） ...

使用 select 列将多个镶木地板文件读取到 pandas，其中存在 select 列 - Read mutliple parquet files to pandas with select columns where select columns exist

运行以下命令时，由于某些文件缺少所需的列，我遇到了错误 li = [] for filename in parquet_filtered_list: df = pd.read_parquet(filename, columns = list ...

如何使用 pyarrow 获取镶木地板文件的页面级数据？ - How do I get page level data of a parquet file with pyarrow?

给定一个ParquetFile object（文档），我能够使用read_row_group或metadata属性在行组/列块级别检索数据：但我不能 go 更进一步。是否有可能获得镶木地板文档中概述的页面相关信息（页面 header，重复级别，定义级别和值）？注意：我对此很感兴趣，以了解 ...

根据另一个 dataframe 的值从一个 dataframe 获取行的更快方法 - Faster way to fetch rows from one dataframe based on values from another

我有一个 dataframe (df_lookup) 有 2 列，另一个 dataframe (df_master) 有超过 100 列。如果 df_lookup 中存在的两列的值在 df_master 中匹配，我希望能够将 df_master 中的所有行拉入第三个 dataframe。我目前正 ...

将数据集推送到 Hugging-face hub 时出现箭头相关错误 - Arrow related error when pushing dataset to Hugging-face hub

赏金将在 7 天后到期。此问题的答案有资格获得+50声望赏金。 Tsadoq想让更多人关注这个问题：为这个问题找到一个可行的解决方案我的数据集有很多问题：（未来）数据集是我从泡菜文件加载的 pandas dataframe，pandas 数据集的行为正确。我的代码是：因为我认为这是 ...

AttributeError：模块“google.cloud.bigquery._helpers”没有属性“PYARROW_VERSIONS” - AttributeError: module 'google.cloud.bigquery._helpers' has no attribute 'PYARROW_VERSIONS'

在 GCP jupyterlab 中运行以下导入命令时出现错误：代码：错误： AttributeError Traceback (最近调用 last) /tmp/ipykernel_5450/3407211047.py in 1 from google.cloud import storag ...

为什么 Pyarrow 可以读取额外的索引列而 Pandas dataframe 不能？ - Why can Pyarrow read additional index column while Pandas dataframe cannot?

我有以下代码： output 是：只是好奇，为什么 Pandas dataframe忽略__null_dask_index__列名？或者__null_dask_index__不被视为一列？ ...

less_equal 没有像我预期的那样工作（pyarrow.compute.less_equal） - less_equal not working like I expect (pyarrow.compute.less_equal)

我正在尝试调试我在使用 pyarrow 时遇到的这个问题。请参阅此代码段：我看到的是第二个断言失败但不是第一个（在某些情况下）。这真的很奇怪，因为两个比较操作应该是等价的...... 这是发生这种情况时打印输出中的 output：关于我做错了什么的任何想法？我原以为第一个断言会在第二个断 ...

从 python 编写一个与 SQL/Impala 兼容的镶木地板文件 - Writing a parquet file from python that is compatible for SQL/Impala

我正在尝试将 pandas Dataframe 写入与 Impala 中的表兼容的镶木地板文件，但我正在努力寻找解决方案。我的 df 有 3 列当我将它创建到镶木地板文件中并将其加载到 impala 中时，python 模式被保留并且它失败了。我希望镶木地板使用以下模式保存：我试过这个：但 ...

pyarrow：解析非标准日期 - pyarrow: Parse non-standard date

我有一个 CSV 文件，其中包含使用非标准日期格式的列，需要稍微清理一下。我如何将其解析为 pyarrow 并写入镶木地板？格式是： %Y%m%d例如： 19991231 %Y%m00 ex: 19991200 (年和月，但没有指定日期) %Y0000例如： 19990000 （仅指定年份 ...

如何使用 pandas 将 csv 转换为镶木地板？ - How to convert csv to parquet using pandas?

我想将我的 CSV 文件转换为镶木地板文件。无论chunksize参数如何，我下面的代码都会导致我的 kernel 被杀死。我不知道文件中的行数 x 列数，但我怀疑我有很多列。什么是理想的解决方案？使用 Pandas：随着时间： ...

日期未按预期写入镶木地板文件 - Date not writing to parquet file as expected

我有一个问题，日期在从 Pandas df 写入镶木地板文件后没有按预期显示。以下是我的工作流程的简要说明： Step1: Parquet file1 位于存储账户中，可以使用 Synapse serverless SQL 查询。当 Date 列中的查询值显示为预期即 2022-01-01 (y ...

如何使用 PyArrow 表达式 API 实现模运算以便我可以在过滤器中使用它？ - How to implement modulo operation using PyArrow Expression API so that I can use it in filter?

我想分片箭头数据集。为此，我想使用单调递增的字段并在以下过滤器中实现分片操作，我可以在 pyarrow 扫描仪中使用它： pc.field('id') % num_shards == shard_id 关于如何使用 PyArrow 计算 API 执行此操作的任何想法？ ...

在 Python 中将巨大的镶木地板文件读入 memory 的最有效方法 - Most efficient way to read a huge parquet file into memory in Python

理想情况下，我希望将数据保存在字典中。在这种情况下，我什至不确定字典是否比 dataframe 更好。经过一些研究，我发现了以下将 parquet 文件读入 memory 的方法： Pyarrow（Apache 箭头的 Python API）：使用 pyarrow，我可以将镶木地板文件读入 ...

python-polars连接SQL服务器（暂不支持） - Connect python-polars to SQL server (no support currently)

如何将 MS SQL 服务器直接连接到 polars？该文档未列出任何支持的连接，但建议使用 pandas。更新： SQL 服务器身份验证按答案工作，但 Windows 域身份验证不起作用。见问题 ...

如何使用 PyArrow 在进程之间共享零拷贝数据帧 - How to share zero copy dataframes between processes with PyArrow

我正在尝试研究如何使用 PyArrow 在进程之间共享数据（希望在某个阶段共享 pandas DataFrames）。我正处于一个相当实验性的（阅读：新手）阶段，正在尝试弄清楚如何使用 PyArrow。我有点卡住了，需要帮助。通过文档，我找到了一个创建缓冲区的示例import time imp ...

AttributeError: 模块 'dill._dill' 没有属性 'log' - AttributeError: module 'dill._dill' has no attribute 'log'

我正在使用 python nlp 模块来训练数据集并遇到以下错误： AttributeError: 模块 'dill._dill' 没有属性 'log' 我注意到类似的帖子，其中没有遇到属性“扩展”和属性“堆栈”，我想知道这是否是类似的情况。我试过运行这个： pip 安装莳萝 --upgra ...

pyarrow 表到 parquet 转换将空格更改为 '' - pyarrow table to parquet conversion changing blank space into ''

我正在尝试将 pyarrow 表转换为镶木地板文件。在此转换过程中，表中字符串字段的空值被转换为“”（空白）我只想将其保留为空值。预期的：我现在得到的是： ...

Parquet 文件重写在 Pandas / PyArrow 中的尺寸略大 - Parquet File re-write has slightly larger size in both Pandas / PyArrow

所以我试图将镶木地板文件读入 memory，选择文件块并将其上传到 AWS S3 Bucket。我想编写健全性测试以通过大小检查或MD5 hash 检查存储桶上的本地文件和云文件来检查文件是否已正确上传。我注意到的一件事是，将文件读入 memory，无论是bytes还是pd.DataFrame ...

如何重新排列pyarrow表中的列 - how to reorder columns in pyarrow table

我有 pyarrow 表，其列顺序为 ['A', 'B', 'C', 'D'] 我想将此 pyarrow 表的顺序更改为 ['B', 'D', 'C', ' A'] 我们可以像 pandas dataframe 这样重新排序 pyarrows 表吗？ ...