標簽[parquet] - 堆棧內存溢出

[英]Querying last row of sorted column where value is less than specific amount from parquet file

我有一個大型鑲木地板文件，其中一列中的數據已排序。下面是一個非常簡化的示例。我有興趣查詢 Y 列的最后一個值，因為 X 以最有效的方式使用 python 小於某個數量。我保證 X 列按升序排序。例如，假設 X 小於 11，我希望 Y 值為“綠色”。我嘗試了以下方法：上面的代碼“有效”，但 ...

ATHENA CREATE TABLE AS 鑲木地板格式問題

[英]ATHENA CREATE TABLE AS problem with parquet format

我在 Athena 中創建一個表並將格式指定為 PARQUET，但是文件擴展名在 S3 中未被識別。類型顯示為“-”，這意味着文件擴展名無法識別，盡管我可以使用以下方法在 Glue 作業中成功讀取文件（從 Athena 編寫）： df = spark.read.parquet() 這是我的陳述： ...

閱讀 MLRun 中的鑲木地板，“無法推斷鑲木地板的模式。必須手動指定。”

[英]Read parquet in MLRun, "Unable to infer schema for Parquet. It must be specified manually."

我遇到了這個問題，當我將數據攝取/寫入 FeatureSet（MLRun FeatureStore 的一部分）時，我通過 PySpark（它似乎是無效的鑲木地板）讀取數據。見異常：查看源代碼的關鍵部分（產生異常）：你看到類似的問題了嗎？注意：Parquet 路徑包含 parquet 文件（ ...

如何使用 golang apache 箭頭庫讀取鑲木地板的重復字段？

[英]How can I use golang apache arrow library to read repeated field for parquet?

我正在使用 apache 箭頭 golang 庫來讀取鑲木地板。沒有重復的列似乎很簡單，但我怎樣才能閱讀重復的字段？ ...

將 2 個對於 memory 來說太大的鑲木地板組合在一起

[英]Combining 2 parquets that are too large for memory together

假設我有兩個數據集存儲為我想要合並的鑲木地板。我可以讀入它們， rbind它們，然后將它們吐回鑲木地板中，就像這樣：# Load library library(arrow) # Create dummy datasets write_dataset(mtcars, path = "~/foo" ...

在使用 pyspark 讀取鑲木地板的情況下提供模式有什么意義？

[英]What is the point of providing schema in case of reading a parquet using pyspark?

當我使用 CSV 時，我可以在讀取文件時提供自定義模式，我獲得的好處如下（以及與 parquet 案例的對比）：不必掃描所有行來推斷架構。（Parquet：由於模式存儲在單獨的文件中，因此推斷模式就像從該文件中讀取模式一樣簡單）我可以即時轉換文件的架構。例如，如果我將 integer 數 ...

將數據保存到實木復合地板以實現夏令時的日期時間偏移問題

[英]datetime offset issue while saving data into parquet for day light saving time

來自源和目標的屏幕截圖當我們使用 spark/scala 寫入 parquet 文件時，DST（夏令時）時間會自動轉換一個小時的延遲時間，例如（2011-09-20 00:00:00.000 到“2011- 09-19 23:00:00.000”）。源（從中讀取數據）：sql 服務器目標（寫入）： ...

pyspark 分區為每個分區創建一個額外的空文件

[英]pyspark partitioning create an extra empty file for every partition

我在 Azure Databricks 中遇到一個問題。在我的筆記本中，我正在執行帶分區的簡單寫入命令：我看到這樣的事情：有人可以解釋為什么 spark 為每個分區創建這個額外的空文件以及如何禁用它嗎？我嘗試了不同的寫入模式、不同的分區和 spark 版本 ...

如何使用 pyarrow 獲取鑲木地板文件的頁面級數據？

[英]How do I get page level data of a parquet file with pyarrow?

給定一個ParquetFile object（文檔），我能夠使用read_row_group或metadata屬性在行組/列塊級別檢索數據：但我不能 go 更進一步。是否有可能獲得鑲木地板文檔中概述的頁面相關信息（頁面 header，重復級別，定義級別和值）？注意：我對此很感興趣，以了解 ...

在數據塊中將 spark df 寫為單個鑲木地板文件

[英]write out spark df as single parquet files in databricks

我有一個像下面這樣的 df 文檔名稱 col1 列2 文件1 1個 1個文件1 1個 1個文件2 2個 2個文件2 2個 2個我需要將其保存為按文件名分區的鑲木地板。當我使用 df.write.partitionBy("Filename").mode("overwrite").parquet ...

我無法通過 pandas read_parquet function 讀取鑲木地板文件

[英]I cant read parquet file by pandas read_parquet function

當我使用 pd.read_parquet 讀取鑲木地板文件時，會顯示此錯誤我的代碼：錯誤：我想將此文件轉換為 csv： https://d37ci6vzurychx.cloudfront.net/trip-data/fhv_tripdata_2018-05.parquet ...

將數據集推送到 Hugging-face hub 時出現箭頭相關錯誤

[英]Arrow related error when pushing dataset to Hugging-face hub

賞金將在 7 天后到期。此問題的答案有資格獲得+50聲望賞金。 Tsadoq想讓更多人關注這個問題：為這個問題找到一個可行的解決方案我的數據集有很多問題：（未來）數據集是我從泡菜文件加載的 pandas dataframe，pandas 數據集的行為正確。我的代碼是：因為我認為這是 ...

為什么 Pyarrow 可以讀取額外的索引列而 Pandas dataframe 不能？

[英]Why can Pyarrow read additional index column while Pandas dataframe cannot?

我有以下代碼： output 是：只是好奇，為什么 Pandas dataframe忽略__null_dask_index__列名？或者__null_dask_index__不被視為一列？ ...

將巨大的 Polars dataframe 轉換為 dict 而不會消耗太多 RAM

[英]Convert huge Polars dataframe to dict without consuming too much RAM

當我將 parquet 文件加載到 Polars DataFrame 時，它需要大約 5.5 GB 的 RAM。與我嘗試過的其他選項相比，Polars 很棒。但是，Polars 不支持創建像 Pandas 這樣的索引。這對我來說很麻煩，因為我的 DataFrame 中的一列是唯一的，並且在我的 ...

CSV 只有 Dataframe 的最后一行

[英]CSV only having last line of the Dataframe

看了一堆類似的答案后無法解決這個問題。我的CSV只有Dataframe打印的最后一行。我需要將整個 dataframe 記錄在 CSV & parquet 文件中。 ...

創建表時，哪個 Parquet 文件數據塊將引用架構

[英]Which Parquet file databricks will refer for schema while creating a table

我正在使用以下語法在 ADLS 鑲木地板文件之上的 azure 數據塊中創建一個外部表。如果不存在 <table_name> 使用鑲木地板位置 'abfss://@' 創建表此語法將自動推斷 parquet 文件的模式並創建外部表，現在我的問題是當指定位置有多個文件可用時（特別是當文件 ...

使用aws將JSON轉換為Apache Parquet格式的最佳方法

[英]Best way to convert JSON to Apache Parquet format using aws

我一直在做一個項目，我一直在將物聯網數據存儲在 s3 存儲桶中並使用 aws kinesis firehose 對它們進行批處理，我有一個 lambda function 在交付 stream 上運行，我將紀元毫秒時間轉換為具有日期的正確時間戳和時間。這是我的示例 JSON 有效負載我現在想將 ...

在 Java 中將文件寫入 Parquet 格式？

[英]Writing files to Parquet format in Java?

在 Java 研究將文件寫入 Parquet 時，我遇到了 - org.apache.parquet.hadoop.ParquetWriter org.apache.parquet.avro.AvroParquetWriter 但兩者都已被棄用。有哪些選擇？ ...

使用 python，有沒有辦法將 polars dataframe 作為鑲木地板直接加載到 s3 存儲桶中

[英]with python, is there a way to load a polars dataframe directly into an s3 bucket as parquet

尋找這樣的東西：保存Dataframe到csv直接到s3 Python api 顯示這些 arguments： https://pola-rs.github.io/polars/py-polars/html/reference/api/polars.DataFrame.write_parque ...

並行讀取多個文件夾

[英]Reading Multiple folders parallely

我有多個部分文件夾，每個文件夾都包含鑲木地板文件（例如下面給出的）。現在，在一個部分文件夾中，模式可以不同（cols 的數量或某些 col 的數據類型）。我的要求是我必須閱讀所有零件文件夾並最終根據預定義的傳遞模式創建一個 df。因為我不確定在哪些部分文件夾中有什么類型的更改，我正在單獨讀取每 ...