繁体 English 中英

MySQL在查询优化和一般效率上是否比Apache Spark更有效

[英]Is MySQL more efficient in query optimization and general efficiency than Apache spark

原文 2016-06-19 12:52:11 8 1 apache-spark/ apache-spark-sql

我发现，对于Spark数据帧上的相同查询和相同表查询，Apache spark比MySQL服务器要慢得多。

那么，哪里有比MySQL更高效的火花呢？

注意：尝试在具有100万行，所有10列文本类型的表上使用。

json中表格的大小约为10GB

在同一服务器MySql上使用具有Xeon 16核心和64GB RAM的独立pyspark笔记本

总的来说，我想了解有关何时使用SPARK vs SQL Server的准则，这些准则涉及目标数据的大小，以便从分析查询中获得真实的快照结果。

1 个解决方案

好的，因此即使在不了解更多信息的情况下仍然很难回答，也要尝试在这里提供帮助。 假设没有争用资源，这里发生了很多事情。 如果您在yarn上运行，并且您的json存储在hdfs中。 它可能会分成许多块，然后将这些块在不同的分区中进行处理。 由于json分割得不好，因此您将失去很多并行功能。 此外，spark并不意味着真正具有超低延迟查询，如调整后的rdbms。 您可以从火花中受益的地方是繁重的数据处理，大量数据（TB或PB）。 如果您正在寻找低延迟查询，则应将Impala或Hive与Tez一起使用。 您还应该考虑将文件格式更改为Avro，镶木地板或ORC。

Apache Spark：哪个效率更高？

[英]Apache Spark:Which one is more efficient?

在Apache中运行的工作超出预期

[英]More than expected jobs running in apache spark

Apache Spark 优化

[英]Apache Spark optimization

平面文件（orc，csv）是否比火花中的增量表更有效

[英]Are flatfiles(orc,csv) more efficient than delta table in spark

Spark 中比 filter.count 更有效的方法？

[英]more efficient method in Spark than filter.count?

Spark sql查询优化

[英]Spark sql query optimization

DataFrame Spark的优化查询

[英]Optimization query for DataFrame Spark

Apache Spark - shuffle写入的数据多于输入数据的大小

[英]Apache Spark - shuffle writes more data than the size of the input data

Apache Spark中的高效字符串匹配

[英]Efficient string matching in Apache Spark

当数组列包含的值大于阈值时，如何编写Spark Optimization以重新计算DataFrame？

[英]How to write Spark Optimization to recalculate DataFrame when array column contains more values than a threshold?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Apache Spark：哪个效率更高？在Apache中运行的工作超出预期 Apache Spark 优化平面文件（orc，csv）是否比火花中的增量表更有效 Spark 中比 filter.count 更有效的方法？ Spark sql查询优化 DataFrame Spark的优化查询 Apache Spark - shuffle写入的数据多于输入数据的大小 Apache Spark中的高效字符串匹配当数组列包含的值大于阈值时，如何编写Spark Optimization以重新计算DataFrame？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM