[英]when using spark as just etl process, what is faster between rdd and dataset in Spark2.1?
嗨,我正在為ETL使用Spark。
我只是從hdfs中將rdd的json字符串加載為rdd,將其解析為json,操縱每個json(無聚合或隨機播放),然后將它們另存為json字符串到hdfs。
我不需要任何類似查詢的操作,因此不需要列數據。
但是,許多報告說,在Spark 2.1中,數據集api比rdd更快。
我感到困惑的是,哪種情況更適合我的情況。
有人可以告訴我嗎?
在您的情況下,Dataframe是更好的選擇,因為它更直接。
根據您的評論,您想要做的事情可以簡單地表達為
spark.read.json(“某些json文件”).select(“一些json字段”).write.json(“ outputpath”)
這都是通過數據框完成的(您的json數據被讀取為數據框)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.