标签[parquet] - 堆栈内存溢出

从镶木地板文件中查询值小于特定数量的排序列的最后一行 - Querying last row of sorted column where value is less than specific amount from parquet file

我有一个大型镶木地板文件，其中一列中的数据已排序。下面是一个非常简化的示例。我有兴趣查询 Y 列的最后一个值，因为 X 以最有效的方式使用 python 小于某个数量。我保证 X 列按升序排序。例如，假设 X 小于 11，我希望 Y 值为“绿色”。我尝试了以下方法：上面的代码“有效”，但 ...

ATHENA CREATE TABLE AS 镶木地板格式问题 - ATHENA CREATE TABLE AS problem with parquet format

我在 Athena 中创建一个表并将格式指定为 PARQUET，但是文件扩展名在 S3 中未被识别。类型显示为“-”，这意味着文件扩展名无法识别，尽管我可以使用以下方法在 Glue 作业中成功读取文件（从 Athena 编写）： df = spark.read.parquet() 这是我的陈述： ...

阅读 MLRun 中的镶木地板，“无法推断镶木地板的模式。必须手动指定。” - Read parquet in MLRun, "Unable to infer schema for Parquet. It must be specified manually."

我遇到了这个问题，当我将数据摄取/写入 FeatureSet（MLRun FeatureStore 的一部分）时，我通过 PySpark（它似乎是无效的镶木地板）读取数据。见异常：查看源代码的关键部分（产生异常）：你看到类似的问题了吗？注意：Parquet 路径包含 parquet 文件（ ...

如何使用 golang apache 箭头库读取镶木地板的重复字段？ - How can I use golang apache arrow library to read repeated field for parquet?

我正在使用 apache 箭头 golang 库来读取镶木地板。没有重复的列似乎很简单，但我怎样才能阅读重复的字段？ ...

将 2 个对于 memory 来说太大的镶木地板组合在一起 - Combining 2 parquets that are too large for memory together

假设我有两个数据集存储为我想要合并的镶木地板。我可以读入它们， rbind它们，然后将它们吐回镶木地板中，就像这样：# Load library library(arrow) # Create dummy datasets write_dataset(mtcars, path = "~/foo" ...

在使用 pyspark 读取镶木地板的情况下提供模式有什么意义？ - What is the point of providing schema in case of reading a parquet using pyspark?

当我使用 CSV 时，我可以在读取文件时提供自定义模式，我获得的好处如下（以及与 parquet 案例的对比）：不必扫描所有行来推断架构。（Parquet：由于模式存储在单独的文件中，因此推断模式就像从该文件中读取模式一样简单）我可以即时转换文件的架构。例如，如果我将 integer 数 ...

将数据保存到实木复合地板以实现夏令时的日期时间偏移问题 - datetime offset issue while saving data into parquet for day light saving time

来自源和目标的屏幕截图当我们使用 spark/scala 写入 parquet 文件时，DST（夏令时）时间会自动转换一个小时的延迟时间，例如（2011-09-20 00:00:00.000 到“2011- 09-19 23:00:00.000”）。源（从中读取数据）：sql 服务器目标（写入）： ...

pyspark 分区为每个分区创建一个额外的空文件 - pyspark partitioning create an extra empty file for every partition

我在 Azure Databricks 中遇到一个问题。在我的笔记本中，我正在执行带分区的简单写入命令：我看到这样的事情：有人可以解释为什么 spark 为每个分区创建这个额外的空文件以及如何禁用它吗？我尝试了不同的写入模式、不同的分区和 spark 版本 ...

如何使用 pyarrow 获取镶木地板文件的页面级数据？ - How do I get page level data of a parquet file with pyarrow?

给定一个ParquetFile object（文档），我能够使用read_row_group或metadata属性在行组/列块级别检索数据：但我不能 go 更进一步。是否有可能获得镶木地板文档中概述的页面相关信息（页面 header，重复级别，定义级别和值）？注意：我对此很感兴趣，以了解 ...

在数据块中将 spark df 写为单个镶木地板文件 - write out spark df as single parquet files in databricks

我有一个像下面这样的 df 文档名称 col1 列2 文件1 1个 1个文件1 1个 1个文件2 2个 2个文件2 2个 2个我需要将其保存为按文件名分区的镶木地板。当我使用 df.write.partitionBy("Filename").mode("overwrite").parquet ...

我无法通过 pandas read_parquet function 读取镶木地板文件 - I cant read parquet file by pandas read_parquet function

当我使用 pd.read_parquet 读取镶木地板文件时，会显示此错误我的代码：错误：我想将此文件转换为 csv： https://d37ci6vzurychx.cloudfront.net/trip-data/fhv_tripdata_2018-05.parquet ...

将数据集推送到 Hugging-face hub 时出现箭头相关错误 - Arrow related error when pushing dataset to Hugging-face hub

赏金将在 7 天后到期。此问题的答案有资格获得+50声望赏金。 Tsadoq想让更多人关注这个问题：为这个问题找到一个可行的解决方案我的数据集有很多问题：（未来）数据集是我从泡菜文件加载的 pandas dataframe，pandas 数据集的行为正确。我的代码是：因为我认为这是 ...

为什么 Pyarrow 可以读取额外的索引列而 Pandas dataframe 不能？ - Why can Pyarrow read additional index column while Pandas dataframe cannot?

我有以下代码： output 是：只是好奇，为什么 Pandas dataframe忽略__null_dask_index__列名？或者__null_dask_index__不被视为一列？ ...

将巨大的 Polars dataframe 转换为 dict 而不会消耗太多 RAM - Convert huge Polars dataframe to dict without consuming too much RAM

当我将 parquet 文件加载到 Polars DataFrame 时，它需要大约 5.5 GB 的 RAM。与我尝试过的其他选项相比，Polars 很棒。但是，Polars 不支持创建像 Pandas 这样的索引。这对我来说很麻烦，因为我的 DataFrame 中的一列是唯一的，并且在我的 ...

CSV 只有 Dataframe 的最后一行 - CSV only having last line of the Dataframe

看了一堆类似的答案后无法解决这个问题。我的CSV只有Dataframe打印的最后一行。我需要将整个 dataframe 记录在 CSV & parquet 文件中。 ...

创建表时，哪个 Parquet 文件数据块将引用架构 - Which Parquet file databricks will refer for schema while creating a table

我正在使用以下语法在 ADLS 镶木地板文件之上的 azure 数据块中创建一个外部表。如果不存在 <table_name> 使用镶木地板位置 'abfss://@' 创建表此语法将自动推断 parquet 文件的模式并创建外部表，现在我的问题是当指定位置有多个文件可用时（特别是当文件 ...

使用aws将JSON转换为Apache Parquet格式的最佳方法 - Best way to convert JSON to Apache Parquet format using aws

我一直在做一个项目，我一直在将物联网数据存储在 s3 存储桶中并使用 aws kinesis firehose 对它们进行批处理，我有一个 lambda function 在交付 stream 上运行，我将纪元毫秒时间转换为具有日期的正确时间戳和时间。这是我的示例 JSON 有效负载我现在想将 ...

在 Java 中将文件写入 Parquet 格式？ - Writing files to Parquet format in Java?

在 Java 研究将文件写入 Parquet 时，我遇到了 - org.apache.parquet.hadoop.ParquetWriter org.apache.parquet.avro.AvroParquetWriter 但两者都已被弃用。有哪些选择？ ...

使用 python，有没有办法将 polars dataframe 作为镶木地板直接加载到 s3 存储桶中 - with python, is there a way to load a polars dataframe directly into an s3 bucket as parquet

寻找这样的东西：保存Dataframe到csv直接到s3 Python api 显示这些 arguments： https://pola-rs.github.io/polars/py-polars/html/reference/api/polars.DataFrame.write_parque ...

并行读取多个文件夹 - Reading Multiple folders parallely

我有多个部分文件夹，每个文件夹都包含镶木地板文件（例如下面给出的）。现在，在一个部分文件夹中，模式可以不同（cols 的数量或某些 col 的数据类型）。我的要求是我必须阅读所有零件文件夹并最终根据预定义的传递模式创建一个 df。因为我不确定在哪些部分文件夹中有什么类型的更改，我正在单独读取每 ...