簡體   English   中英

當僅將spark用作etl流程時,Spark2.1中rdd和數據集之間的速度更快?

[英]when using spark as just etl process, what is faster between rdd and dataset in Spark2.1?

嗨,我正在為ETL使用Spark。

我只是從hdfs中將rdd的json字符串加載為rdd,將其解析為json,操縱每個json(無聚合或隨機播放),然后將它們另存為json字符串到hdfs。

我不需要任何類似查詢的操作,因此不需要列數據。

但是,許多報告說,在Spark 2.1中,數據集api比rdd更快。

我感到困惑的是,哪種情況更適合我的情況。

有人可以告訴我嗎?

在您的情況下,Dataframe是更好的選擇,因為它更直接。

根據您的評論,您想要做的事情可以簡單地表達為

spark.read.json(“某些json文件”).select(“一些json字段”).write.json(“ outputpath”)

這都是通過數據框完成的(您的json數據被讀取為數據框)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM