![](/img/trans.png)
[英]Process parquet file row-wise
我有一個大規模的分布式系統,它每天下載很多 large.csv 文件並索引數據。 可以說,我們的文件(file.csv)是: col1 col2 col3 user11 val12 val13 user21 val22 val23 然后我們逐行讀取該文件並存儲該文件中 user11 或 user12 ...
[英]Process parquet file row-wise
我有一個大規模的分布式系統,它每天下載很多 large.csv 文件並索引數據。 可以說,我們的文件(file.csv)是: col1 col2 col3 user11 val12 val13 user21 val22 val23 然后我們逐行讀取該文件並存儲該文件中 user11 或 user12 ...
[英]read a parquet file using Java, but it works in local machine, and doesn't work in docker container
我需要在 Java 獨立應用程序中讀取鑲木地板文件並發布到 Kafka。 我有下面的代碼來讀取由 spark scala 應用程序生成的鑲木地板文件。 java 應用程序是一個 Spring Boot 非 Web 應用程序。 此代碼在本地或 intelliJ IDE 中運行時工作正常,但是當相 ...
[英]Which "JAR" file do i need to be able to import "org.apache.parquet" in Scala?
當我嘗試這個時: 它出錯了: 問題- 我需要在 spark conf 中包含哪個 jar 才能使此導入工作? 請注意,這工作正常: CDH jars 我可以訪問: ...
[英]Build Failed on parquet-tools because of relativePath
我想在 Docker 中獲得鑲木地板工具。 它需要建造。 但失敗並顯示以下錯誤消息。 我試試這個,但沒有奏效。 互聯網連接很好。 並嘗試另一台計算機,重現它。 這個問題可能是pom的relativePath。 Maven 無法讀取父 POM 並引發錯誤。 這是重現錯誤環境的 Dockerfile。 ...
[英]Hadoop S3A filesystem, abort object upload?
我有類似的代碼 如果validate拋出異常,我想釋放與 writer 關聯的所有資源。 但在這種情況下,我不想在 S3 中創建任何對象。 這是可以實現的嗎? 如果我關閉編寫器,它將結束 s3 分段上傳並在雲中創建 object。 如果我不關閉它,到目前為止寫入的部分將保留在磁盤緩沖區中,從而阻塞 ...
[英]INT32 type error when scanning parquet federated table. Bug or Expected behavior?
我正在使用 BigQuery 查詢外部數據源(也稱為聯合表),其中源數據是存儲在 google 雲存儲中的 hive 分區 parquet 表。 我使用本指南來定義表格。 我測試此表的第一個查詢如下所示 此查詢失敗並出現以下錯誤列 visitor_partition 的類型為 INT64,與預期的 ...
[英]How to use the Parquet UUID Logical Type in a schema
最近,鑲木地板格式項目添加了一個 UUID 邏輯類型。 具體來說,這是在鑲木地板格式的修訂版 2.4中添加的。 我對在 Java 中使用parquet-mr庫來創建一些鑲木地板文件很感興趣,但我似乎無法弄清楚如何在鑲木地板模式中使用 UUID 邏輯類型。 像這樣的簡單模式似乎並不像我希望的那樣工作: ...
[英]How can i stream parquet file over network using client server socket programming in java
我正在使用ParquetReader<Group> reader = new ParquetReader<Group>(path, groupReadSupport); 用於從本地讀取鑲木地板文件。 我想知道如何通過網絡逐行打印 stream 鑲木地板文件我想知道如何通過客戶 ...
[英]Converting Arrow to Parquet and vice versa in java
我一直在尋找在Java中將arrow轉換為parquet ,反之亦然的方法。 即使用於arrow的Python庫完全支持上述轉換,但在Java中幾乎找不到相同的文檔。 有人在arrow/parquet Java庫中遇到過這種功能嗎? ...
[英]Using PageIndex, why parquet does not skip unnecessary pages?
使用parquet-mr@1.11.0 ,我有一個架構,例如: 我正在通過url進行單行查找以檢索關聯的content 行按url排序。 該文件是通過以下方式創建的: parquet.block.size: 256 MB parquet.page.size: 10 MB ...
[英]Why is dictionary page offset 0 for `plain_dictionary` encoding?
Parquet 由 Spark v2.4 Parquet-mr v1.10 生成 使用parquet-tools v1.12 進行檢查 題: FPO(第一個數據頁偏移量)應該總是大於還是小於 DO(字典頁偏移量)? 我從某處讀取字典頁面存儲在數據頁面之后。 對於列x & y ...
[英]java.lang.ClassCastException: optional int32 count is not a group
我想查看parquet文件的內容。 我運行了以下命令,但收到錯誤java.lang.ClassCastException: optional int32 count is not a group 。 manu@manu-VirtualBox:~/parquet-mr/parquet-too ...
[英]How do you query a parquet file using parquet-mr?
我有一個要查詢的存儲在AWS S3中的實木復合地板文件。 我想檢索某行數據,因為它等於一個值。 幾乎就像我在SQL中那樣: SELECT * FROM file.parquet WHERE id = '1234'; 我正在使用parquet-mr將其直接從S3加載到內存中並讀取, ...
[英]Documentation for Parquet-mr java library
我需要使用Parquet-mr庫以Java編程方式讀取Parquet文件。 我需要有選擇地閱讀幾列,並跳過其他列(例如,從500列中讀取3列)。 我似乎找不到有關如何執行此操作的任何文檔。 有人可以指點我嗎? ...
[英]How to convert parquet schema to avro in Java/Scala
假設我在文件系統上有鑲木地板文件。 如何獲得鑲木地板方案並將其轉換為Avro方案? ...
[英]flink sink to parquet file with AvroParquetWriter is not writing data to file
我正在嘗試使用AvroParquetWriter將鑲木地板文件寫入接收器。 已創建文件,但長度為0(未寫入數據)。 難道我做錯了什么 ? 不知道是什么問題 ...
[英]How do you set the row group size of files in hdfs?
我正在對hdfs中的塊大小(dfs.block.size)和行組大小(parquet.block.size)進行一些實驗。 我在hdfs中有大量數據,我想復制具有各種塊大小和行組大小的數據以進行測試。 我可以使用以下方法以不同的塊大小復制數據: 但是只有dfs.block.siz ...
[英]Using parquet tools on files in hdfs
我下載並構建了https://github.com/apache/parquet-mr的 parquet-1.5.0。 我現在想在hdfs中的鑲木地板文件上運行一些命令。 我嘗試了這個: 我得到: 錯誤:找不到或加載主類parquet.tools.Main ...
[英]Installing parquet-tools
我正在嘗試在 FreeBSD 機器上安裝鑲木地板工具。 我克隆了這個倉庫: git clone https://github.com/apache/parquet-mr 然后我做了cd parquet-mr/parquet-tools 然后我做了`mvn clean package -Ploc ...
[英]PySpark Write Parquet Binary Column with Stats (signed-min-max.enabled)
我發現這張apache-parquet票證https://issues.apache.org/jira/browse/PARQUET-686被標記為parquet-mr 1.8.2已解決。 我想要的功能是( string或BINARY )列的實木復合地板元數據中計算出的min/max 。 ...