簡體 English 中英

當僅將spark用作etl流程時，Spark2.1中rdd和數據集之間的速度更快？

[英]when using spark as just etl process, what is faster between rdd and dataset in Spark2.1?

原文 2017-06-01 02:19:12 2 1 performance/ apache-spark/ dataset/ rdd

嗨，我正在為ETL使用Spark。

我只是從hdfs中將rdd的json字符串加載為rdd，將其解析為json，操縱每個json（無聚合或隨機播放），然后將它們另存為json字符串到hdfs。

我不需要任何類似查詢的操作，因此不需要列數據。

但是，許多報告說，在Spark 2.1中，數據集api比rdd更快。

我感到困惑的是，哪種情況更適合我的情況。

有人可以告訴我嗎？

1 個解決方案

在您的情況下，Dataframe是更好的選擇，因為它更直接。

根據您的評論，您想要做的事情可以簡單地表達為

spark.read.json（“某些json文件”）.select（“一些json字段”）.write.json（“ outputpath”）

這都是通過數據框完成的（您的json數據被讀取為數據框）

Spark RDD：多個reducebykey或僅一次

[英]Spark RDD: multiple reducebykey or just once

Spark：在RDD上收集/並行化比在RDD上“不執行任何操作”“更快”

[英]Spark: Collect/parallelize on RDD is “faster” than “doing nothing” on RDD

RDD 中的分區數和 Spark 中的性能

[英]Number of partitions in RDD and performance in Spark

使用 reduceByKey(numPartitions) 或 repartition 規范化 SPARK RDD 分區

[英]Normalize SPARK RDD partitions using reduceByKey(numPartitions) or repartition

比較RDD對象-Apache Spark

[英]Compare RDD Objects - Apache Spark

Spark 2.2.0 API：我應該更喜歡使用Groupby結合Aggregate的Dataset或使用ReduceBykey結合RDD的數據集

[英]Spark 2.2.0 API: Which one should i prefer Dataset with Groupby combined with aggregate or RDD with ReduceBykey

RDD連續子集的Scala Spark執行

[英]Scala Spark execution of RDD contiguous subsets

Spark：在RDD中查找元素的最快方法

[英]Spark: Fastest way to look up an element in an RDD

火花檢查點是否比緩存更快？

[英]Is spark checkpointing faster than caching?

Spark緩存的RDD計算n次

[英]Spark cached RDD is calculated n times

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark RDD：多個reducebykey或僅一次 Spark：在RDD上收集/並行化比在RDD上“不執行任何操作”“更快” RDD 中的分區數和 Spark 中的性能使用 reduceByKey(numPartitions) 或 repartition 規范化 SPARK RDD 分區比較RDD對象-Apache Spark Spark 2.2.0 API：我應該更喜歡使用Groupby結合Aggregate的Dataset或使用ReduceBykey結合RDD的數據集 RDD連續子集的Scala Spark執行 Spark：在RDD中查找元素的最快方法火花檢查點是否比緩存更快？ Spark緩存的RDD計算n次

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM