繁体   English   中英

我应该在Spark sql中使用哪一个以获得更好的性能,要么从Parquet文件中读取数据,要么从数据库中读取数据?

[英]Which one should i use in spark sql for better performance, either reading the data from Parquet file or reading data from database?

现在,我是Spark sql的初学者(在Scala lang中)。 我想运行查询。 使用实木复合地板文件真的可以提高性能吗? 实木复合地板文件或从数据库(Oracle)读取数据是否需要放置在HDFS中才能执行火花查询? 哪一种是正确的方法?

我可以肯定地说,与通过JDBC连接器读取Oracle等RDBMS相比,从HDFS读取镶木地板文件具有更大的可伸缩性。 这样做的原因是数据局部性-如果您在同一主机上运行Spark执行程序,那么HDFS数据节点将位于这些主机上,并且可以有效地将数据读入内存而无需网络开销。 请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.htmlApache Spark如何了解HDFS数据节点? 更多细节。

而且,Parquet格式是列式的,并且比传统的RDBMS具有OLAP存储的优势(尤其是在数据稀疏的情况下)。 简短比较: https : //www.wikiwand.com/zh_CN/Column-directional_DBMS#/Benefits

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM