繁体 English 中英

DataSet javaRDD（）性能

[英]DataSet javaRDD() performance

原文 2017-08-19 14:51:13 2 2 java/ performance/ apache-spark/ cassandra/ apache-spark-sql

我正在使用Spark SQL在Spark应用程序中从Cassandra检索数据。 数据作为DataSet检索。 但是，我需要使用javaRDD()函数将此dataset转换为JavaRDD 。 它可以工作，但是大约需要2个小时。 是否有一些参数需要调整以增强这次效果？

2 个解决方案

Dataset APIs建立在SparkSQL引擎之上，它使用Catalyst生成优化的逻辑和物理查询计划。 跨R, Java, Scala,或Python DataFrame/Dataset APIs ，所有关系类型查询都使用相同的代码优化器，从而提供了空间和速度效率。 Dataset[T]类型的API已针对数据工程任务进行了优化， DataFrame untyped Dataset[Row] （ DataFrame的别名）则更快，并且更适合进行交互式分析。

有关更多详细信息， Spark RDD与数据集性能

弹性分布式数据集（RDD）是Spark框架的主要抽象，而Spark SQL（用于结构化数据处理的Spark模块）为Spark提供了有关数据结构和正在执行的计算的更多信息，因此使用此额外信息来执行额外的优化。

直到Spark 1.6之前，RDD的性能都优于其Spark SQL对应的DataFrame（ https://community.hortonworks.com/articles/42027/rdd-vs-dataframe-vs-sparksql.html ），但是Spark 2.1升级具有使Spark SQL更加高效

https://i.stack.imgur.com/TmhXf.png

如何将javaRDD转换为数据集

[英]How to convert javaRDD to dataset

RDD对JavaRDD转换的性能影响

[英]Performance Impact of RDD to JavaRDD conversion

数据集 <Row> 和JavaRDD <Row> ：如何消除标题

[英]Dataset<Row> and JavaRDD<Row>: how to eliminate the header

转换数据集时出现RuntimeException <Row> 到JavaRDD <Row> 然后是数据框

[英]RuntimeException when converting Dataset<Row> to JavaRDD<Row> and then Dataframe

使用Spark的Deeplearning4j：JavaRDD的SparkDl4jMultiLayer评估<DataSet>

[英]Deeplearning4j with spark: SparkDl4jMultiLayer evaluation with JavaRDD<DataSet>

转换 JavaRDD <tuple2<object, long[]> > 进入 Spark 数据集<row>在 Java </row></tuple2<object,>

[英]Convert a JavaRDD<Tuple2<Object, long[]>> into a Spark Dataset<Row> in Java

Apache Spark - 将JavaRDD转换为DataFrame，反之亦然，任何性能下降？

[英]Apache Spark - Converting JavaRDD to DataFrame and vice versa, any performance degradation?

JavaRDD<String> 到 JavaRDD<Row>

[英]JavaRDD<String> to JavaRDD<Row>

在Apache Spark中，转换JavaRDD <Row> 到数据集 <Row> 给出异常：ArrayList不是字符串模式的有效外部类型

[英]In Apache Spark, converting JavaRDD<Row> to Dataset<Row> gives exception: ArrayList is not a valid external type for schema of string

在Javardd排序

[英]Sortby in Javardd

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何将javaRDD转换为数据集 RDD对JavaRDD转换的性能影响数据集 <Row> 和JavaRDD <Row> ：如何消除标题转换数据集时出现RuntimeException <Row> 到JavaRDD <Row> 然后是数据框使用Spark的Deeplearning4j：JavaRDD的SparkDl4jMultiLayer评估<DataSet> 转换 JavaRDD <tuple2<object, long[]> > 进入 Spark 数据集<row>在 Java </row></tuple2<object,> Apache Spark - 将JavaRDD转换为DataFrame，反之亦然，任何性能下降？ JavaRDD<String> 到 JavaRDD<Row> 在Apache Spark中，转换JavaRDD <Row> 到数据集 <Row> 给出异常：ArrayList不是字符串模式的有效外部类型在Javardd排序

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM