[英]Spark Streaming : Write Data to HDFS by reading from one HDFSdir to another
[英]Which one should i use in spark sql for better performance, either reading the data from Parquet file or reading data from database?
现在,我是Spark sql的初学者(在Scala lang中)。 我想运行查询。 使用实木复合地板文件真的可以提高性能吗? 实木复合地板文件或从数据库(Oracle)读取数据是否需要放置在HDFS中才能执行火花查询? 哪一种是正确的方法?
我可以肯定地说,与通过JDBC连接器读取Oracle等RDBMS相比,从HDFS读取镶木地板文件具有更大的可伸缩性。 这样做的原因是数据局部性-如果您在同一主机上运行Spark执行程序,那么HDFS数据节点将位于这些主机上,并且可以有效地将数据读入内存而无需网络开销。 请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html和Apache Spark如何了解HDFS数据节点? 更多细节。
而且,Parquet格式是列式的,并且比传统的RDBMS具有OLAP存储的优势(尤其是在数据稀疏的情况下)。 简短比较: https : //www.wikiwand.com/zh_CN/Column-directional_DBMS#/Benefits
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.