簡體   English   中英

使用 Apache 箭頭讀取 Parquet 文件

[英]Read Parquet Files using Apache Arrow

我有一些使用 PyArrow(Apache Arrow)在 Python 中編寫的 Parquet 文件:

pyarrow.parquet.write_table(table, "example.parquet")

現在我想使用 Java 程序讀取這些文件(最好是獲取箭頭表)。

在 Python 中,我可以簡單地使用以下命令從我的 Parquet 文件中獲取箭頭表:

table = pyarrow.parquet.read_table("example.parquet")

Java 中是否有等效且簡單的解決方案?

對於 Java(僅適用於 Python),我真的找不到任何好的/工作示例或任何有用的文檔。 或者某些示例沒有提供所有需要的 Maven 依賴項。 我也不想使用 Hadoop 文件系統,我只想使用本地文件。

注意:我還發現我不能使用“Apache Avro”,因為我的 Parquet 文件包含帶有符號[]$的列名,這些符號在 Apache Avro 中是無效字符。

另外,如果您的解決方案使用 Maven,您能否提供 Maven 依賴項。


我在 Windows 並使用 Eclipse。


更新(2020 年 11 月):我從來沒有找到合適的解決方案,只是在我的用例中堅持使用 Python。

這有點矯枉過正,但您可以使用 Spark。

https://spark.apache.org/docs/latest/sql-data-sources-parquet.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM