cost 272 ms
逐行處理鑲木地板文件

[英]Process parquet file row-wise

我有一個大規模的分布式系統,它每天下載很多 large.csv 文件並索引數據。 可以說,我們的文件(file.csv)是: col1 col2 col3 user11 val12 val13 user21 val22 val23 然后我們逐行讀取該文件並存儲該文件中 user11 或 user12 ...

使用 Java 讀取 parquet 文件,但它在本地機器上工作,在 docker 容器中不工作

[英]read a parquet file using Java, but it works in local machine, and doesn't work in docker container

我需要在 Java 獨立應用程序中讀取鑲木地板文件並發布到 Kafka。 我有下面的代碼來讀取由 spark scala 應用程序生成的鑲木地板文件。 java 應用程序是一個 Spring Boot 非 Web 應用程序。 此代碼在本地或 intelliJ IDE 中運行時工作正常,但是當相 ...

由於 relativePath,在鑲木地板工具上構建失敗

[英]Build Failed on parquet-tools because of relativePath

我想在 Docker 中獲得鑲木地板工具。 它需要建造。 但失敗並顯示以下錯誤消息。 我試試這個,但沒有奏效。 互聯網連接很好。 並嘗試另一台計算機,重現它。 這個問題可能是pom的relativePath。 Maven 無法讀取父 POM 並引發錯誤。 這是重現錯誤環境的 Dockerfile。 ...

Hadoop S3A 文件系統,中止 object 上傳?

[英]Hadoop S3A filesystem, abort object upload?

我有類似的代碼 如果validate拋出異常,我想釋放與 writer 關聯的所有資源。 但在這種情況下,我不想在 S3 中創建任何對象。 這是可以實現的嗎? 如果我關閉編寫器,它將結束 s3 分段上傳並在雲中創建 object。 如果我不關閉它,到目前為止寫入的部分將保留在磁盤緩沖區中,從而阻塞 ...

掃描 parquet 聯合表時出現 INT32 類型錯誤。 錯誤或預期行為?

[英]INT32 type error when scanning parquet federated table. Bug or Expected behavior?

我正在使用 BigQuery 查詢外部數據源(也稱為聯合表),其中源數據是存儲在 google 雲存儲中的 hive 分區 parquet 表。 我使用本指南來定義表格。 我測試此表的第一個查詢如下所示 此查詢失敗並出現以下錯誤列 visitor_partition 的類型為 INT64,與預期的 ...

如何在架構中使用 Parquet UUID 邏輯類型

[英]How to use the Parquet UUID Logical Type in a schema

最近,鑲木地板格式項目添加了一個 UUID 邏輯類型。 具體來說,這是在鑲木地板格式的修訂版 2.4中添加的。 我對在 Java 中使用parquet-mr庫來創建一些鑲木地板文件很感興趣,但我似乎無法弄清楚如何在鑲木地板模式中使用 UUID 邏輯類型。 像這樣的簡單模式似乎並不像我希望的那樣工作: ...

我如何使用 java 中的客戶端服務器套接字編程在網絡上使用 stream 鑲木地板文件

[英]How can i stream parquet file over network using client server socket programming in java

我正在使用ParquetReader<Group> reader = new ParquetReader<Group>(path, groupReadSupport); 用於從本地讀取鑲木地板文件。 我想知道如何通過網絡逐行打印 stream 鑲木地板文件我想知道如何通過客戶 ...

在Java中將Arrow轉換為Parquet,反之亦然

[英]Converting Arrow to Parquet and vice versa in java

我一直在尋找在Java中將arrow轉換為parquet ,反之亦然的方法。 即使用於arrow的Python庫完全支持上述轉換,但在Java中幾乎找不到相同的文檔。 有人在arrow/parquet Java庫中遇到過這種功能嗎? ...

為什么`plain_dictionary` 編碼的字典頁面偏移量為0?

[英]Why is dictionary page offset 0 for `plain_dictionary` encoding?

Parquet 由 Spark v2.4 Parquet-mr v1.10 生成 使用parquet-tools v1.12 進行檢查 題: FPO(第一個數據頁偏移量)應該總是大於還是小於 DO(字典頁偏移量)? 我從某處讀取字典頁面存儲在數據頁面之后。 對於列x & y ...

如何使用Parquet-Mr查詢Parquet文件?

[英]How do you query a parquet file using parquet-mr?

我有一個要查詢的存儲在AWS S3中的實木復合地板文件。 我想檢索某行數據,因為它等於一個值。 幾乎就像我在SQL中那樣: SELECT * FROM file.parquet WHERE id = '1234'; 我正在使用parquet-mr將其直接從S3加載到內存中並讀取, ...

Parquet-MR Java庫的文檔

[英]Documentation for Parquet-mr java library

我需要使用Parquet-mr庫以Java編程方式讀取Parquet文件。 我需要有選擇地閱讀幾列,並跳過其他列(例如,從500列中讀取3列)。 我似乎找不到有關如何執行此操作的任何文檔。 有人可以指點我嗎? ...

如何在hdfs中設置文件的行組大小?

[英]How do you set the row group size of files in hdfs?

我正在對hdfs中的塊大小(dfs.block.size)和行組大小(parquet.block.size)進行一些實驗。 我在hdfs中有大量數據,我想復制具有各種塊大小和行組大小的數據以進行測試。 我可以使用以下方法以不同的塊大小復制數據: 但是只有dfs.block.siz ...

在hdfs中的文件上使用鑲木地板工具

[英]Using parquet tools on files in hdfs

我下載並構建了https://github.com/apache/parquet-mr的 parquet-1.5.0。 我現在想在hdfs中的鑲木地板文件上運行一些命令。 我嘗試了這個: 我得到: 錯誤:找不到或加載主類parquet.tools.Main ...

安裝鑲木地板工具

[英]Installing parquet-tools

我正在嘗試在 FreeBSD 機器上安裝鑲木地板工具。 我克隆了這個倉庫: git clone https://github.com/apache/parquet-mr 然后我做了cd parquet-mr/parquet-tools 然后我做了`mvn clean package -Ploc ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM