簡體   English   中英

在沒有Spark的情況下在Scala中創建Parquet文件

[英]Create Parquet file in Scala without Spark

我正在嘗試使用Scala(無Spark)將流式JSON消息直接寫入Parquet。 我看到只有幾個在線帖子和這篇文章,但我看到ParquetWriter API已被棄用,解決方案實際上並未提供一個示例。 我也閱讀了其他一些帖子,但沒有找到任何描述性的解釋。

我知道我必須使用ParquetFileWriter API,但缺乏文檔使我難以使用它。 有人可以提供它的例子以及所有構造函數參數以及如何創建這些參數,尤其是模式?

您可能想嘗試使用Eel ,一個工具包來操縱Hadoop生態系統中的數據。

我建議閱讀自述文件以更好地理解庫,但為了讓您了解庫的工作原理,您嘗試做的事情看起來有點像下面這樣:

val source = JsonSource(() => new FileInputStream("input.json"))
val sink = ParquetSink(new Path("output.parquet"))
source.toDataStream().to(sink)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM