cost 208 ms
pyarrow:迭代 ChunkedArray 的快速方法? (来自一张桌子) - pyarrow: fast way to iterate ChunkedArray? (from a table)

该数组包含 python 个对象,是表格的一部分。 我需要按元素执行计算。 计算本身返回一个数字列表,这些数字应该是表中的新列。 我查看了文档,但无论如何都看不到迭代 pyarrow 数组? 有没有办法或者我必须先将它转换为 numpy 数组? (这就是用户定义函数的文档示例所显示的内容) ...

如何使用 pyarrow 获取镶木地板文件的页面级数据? - How do I get page level data of a parquet file with pyarrow?

给定一个ParquetFile object( 文档),我能够使用read_row_group或metadata属性在行组/列块级别检索数据: 但我不能 go 更进一步。 是否有可能获得镶木地板文档中概述的页面相关信息(页面 header,重复级别,定义级别和值)? 注意:我对此很感兴趣,以了解 ...

将数据集推送到 Hugging-face hub 时出现箭头相关错误 - Arrow related error when pushing dataset to Hugging-face hub

赏金将在 7 天后到期。 此问题的答案有资格获得+50声望赏金。 Tsadoq想让更多人关注这个问题: 为这个问题找到一个可行的解决方案我的数据集有很多问题: (未来)数据集是我从泡菜文件加载的 pandas dataframe,pandas 数据集的行为正确。 我的代码是: 因为我认为这是 ...

AttributeError:模块“google.cloud.bigquery._helpers”没有属性“PYARROW_VERSIONS” - AttributeError: module 'google.cloud.bigquery._helpers' has no attribute 'PYARROW_VERSIONS'

在 GCP jupyterlab 中运行以下导入命令时出现错误: 代码: 错误: AttributeError Traceback (最近调用 last) /tmp/ipykernel_5450/3407211047.py in 1 from google.cloud import storag ...

less_equal 没有像我预期的那样工作(pyarrow.compute.less_equal) - less_equal not working like I expect (pyarrow.compute.less_equal)

我正在尝试调试我在使用 pyarrow 时遇到的这个问题。 请参阅此代码段: 我看到的是第二个断言失败但不是第一个(在某些情况下)。 这真的很奇怪,因为两个比较操作应该是等价的...... 这是发生这种情况时打印输出中的 output: 关于我做错了什么的任何想法? 我原以为第一个断言会在第二个断 ...

从 python 编写一个与 SQL/Impala 兼容的镶木地板文件 - Writing a parquet file from python that is compatible for SQL/Impala

我正在尝试将 pandas Dataframe 写入与 Impala 中的表兼容的镶木地板文件,但我正在努力寻找解决方案。 我的 df 有 3 列 当我将它创建到镶木地板文件中并将其加载到 impala 中时,python 模式被保留并且它失败了。 我希望镶木地板使用以下模式保存: 我试过这个: 但 ...

如何使用 PyArrow 表达式 API 实现模运算以便我可以在过滤器中使用它? - How to implement modulo operation using PyArrow Expression API so that I can use it in filter?

我想分片箭头数据集。 为此,我想使用单调递增的字段并在以下过滤器中实现分片操作,我可以在 pyarrow 扫描仪中使用它: pc.field('id') % num_shards == shard_id 关于如何使用 PyArrow 计算 API 执行此操作的任何想法? ...

在 Python 中将巨大的镶木地板文件读入 memory 的最有效方法 - Most efficient way to read a huge parquet file into memory in Python

理想情况下,我希望将数据保存在字典中。 在这种情况下,我什至不确定字典是否比 dataframe 更好。 经过一些研究,我发现了以下将 parquet 文件读入 memory 的方法: Pyarrow(Apache 箭头的 Python API): 使用 pyarrow,我可以将镶木地板文件读入 ...

如何使用 PyArrow 在进程之间共享零拷贝数据帧 - How to share zero copy dataframes between processes with PyArrow

我正在尝试研究如何使用 PyArrow 在进程之间共享数据(希望在某个阶段共享 pandas DataFrames)。 我正处于一个相当实验性的(阅读:新手)阶段,正在尝试弄清楚如何使用 PyArrow。 我有点卡住了,需要帮助。 通过文档,我找到了一个创建缓冲区的示例import time imp ...

AttributeError: 模块 'dill._dill' 没有属性 'log' - AttributeError: module 'dill._dill' has no attribute 'log'

我正在使用 python nlp 模块来训练数据集并遇到以下错误: AttributeError: 模块 'dill._dill' 没有属性 'log' 我注意到类似的帖子,其中没有遇到属性“扩展”和属性“堆栈”,我想知道这是否是类似的情况。 我试过运行这个: pip 安装莳萝 --upgra ...

Parquet 文件重写在 Pandas / PyArrow 中的尺寸略大 - Parquet File re-write has slightly larger size in both Pandas / PyArrow

所以我试图将镶木地板文件读入 memory,选择文件块并将其上传到 AWS S3 Bucket。 我想编写健全性测试以通过大小检查或MD5 hash 检查存储桶上的本地文件和云文件来检查文件是否已正确上传。 我注意到的一件事是,将文件读入 memory,无论是bytes还是pd.DataFrame ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM