繁体   English   中英

MySQL在查询优化和一般效率上是否比Apache Spark更有效

[英]Is MySQL more efficient in query optimization and general efficiency than Apache spark

我发现,对于Spark数据帧上的相同查询和相同表查询,Apache spark比MySQL服务器要慢得多。

那么,哪里有比MySQL更高效的火花呢?

注意:尝试在具有100万行,所有10列文本类型的表上使用。

json中表格的大小约为10GB

在同一服务器MySql上使用具有Xeon 16核心和64GB RAM的独立pyspark笔记本

总的来说,我想了解有关何时使用SPARK vs SQL Server的准则,这些准则涉及目标数据的大小,以便从分析查询中获得真实的快照结果。

好的,因此即使在不了解更多信息的情况下仍然很难回答,也要尝试在这里提供帮助。 假设没有争用资源,这里发生了很多事情。 如果您在yarn上运行,并且您的json存储在hdfs中。 它可能会分成许多块,然后将这些块在不同的分区中进行处理。 由于json分割得不好,因此您将失去很多并行功能。 此外,spark并不意味着真正具有超低延迟查询,如调整后的rdbms。 您可以从火花中受益的地方是繁重的数据处理,大量数据(TB或PB)。 如果您正在寻找低延迟查询,则应将Impala或Hive与Tez一起使用。 您还应该考虑将文件格式更改为Avro,镶木地板或ORC。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM