[英]Read Parquet Files using Apache Arrow
我有一些使用 PyArrow(Apache Arrow)在 Python 中編寫的 Parquet 文件:
pyarrow.parquet.write_table(table, "example.parquet")
現在我想使用 Java 程序讀取這些文件(最好是獲取箭頭表)。
在 Python 中,我可以簡單地使用以下命令從我的 Parquet 文件中獲取箭頭表:
table = pyarrow.parquet.read_table("example.parquet")
Java 中是否有等效且簡單的解決方案?
對於 Java(僅適用於 Python),我真的找不到任何好的/工作示例或任何有用的文檔。 或者某些示例沒有提供所有需要的 Maven 依賴項。 我也不想使用 Hadoop 文件系統,我只想使用本地文件。
注意:我還發現我不能使用“Apache Avro”,因為我的 Parquet 文件包含帶有符號[
、 ]
和$
的列名,這些符號在 Apache Avro 中是無效字符。
另外,如果您的解決方案使用 Maven,您能否提供 Maven 依賴項。
我在 Windows 並使用 Eclipse。
更新(2020 年 11 月):我從來沒有找到合適的解決方案,只是在我的用例中堅持使用 Python。
這有點矯枉過正,但您可以使用 Spark。
https://spark.apache.org/docs/latest/sql-data-sources-parquet.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.