繁体 English 中英

我应该在Spark sql中使用哪一个以获得更好的性能，要么从Parquet文件中读取数据，要么从数据库中读取数据？

[英]Which one should i use in spark sql for better performance, either reading the data from Parquet file or reading data from database?

原文 2016-04-22 06:36:49 8 1 scala/ apache-spark-sql

现在，我是Spark sql的初学者（在Scala lang中）。 我想运行查询。 使用实木复合地板文件真的可以提高性能吗？ 实木复合地板文件或从数据库（Oracle）读取数据是否需要放置在HDFS中才能执行火花查询？ 哪一种是正确的方法？

1 个解决方案

我可以肯定地说，与通过JDBC连接器读取Oracle等RDBMS相比，从HDFS读取镶木地板文件具有更大的可伸缩性。 这样做的原因是数据局部性-如果您在同一主机上运行Spark执行程序，那么HDFS数据节点将位于这些主机上，并且可以有效地将数据读入内存而无需网络开销。 请参阅https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html和Apache Spark如何了解HDFS数据节点？ 更多细节。

而且，Parquet格式是列式的，并且比传统的RDBMS具有OLAP存储的优势（尤其是在数据稀疏的情况下）。 简短比较： https : //www.wikiwand.com/zh_CN/Column-directional_DBMS#/Benefits

Spark Streaming：通过从一个HDFSdir读取到另一个将数据写入HDFS

[英]Spark Streaming : Write Data to HDFS by reading from one HDFSdir to another

从分区拼花文件中读取 DataFrame

[英]Reading DataFrame from partitioned parquet file

Spark 如何使用同步 API 从数据写入镶木地板文件

[英]Spark How to write to parquet file from data using synchronous API

Spark中的数据并行性：从hdfs读取avro数据

[英]data parallelism in spark : reading avro data from hdfs

从原始文本到Parquet的Spark SQL：没有性能提升

[英]Spark SQL from raw text to Parquet: no performance boost

将保存的文本文件从Spark程序读取到另一个

[英]Reading saved text file from a Spark program into another one

org.apache.spark.sql.AnalysisException：无法解析：从嵌套的 json 读取数据时

[英]org.apache.spark.sql.AnalysisException: cannot resolve :While reading data from nested json

慢速性能读取S3中的镶木地板文件与Spark中的scala

[英]Slow performance reading parquet files in S3 with scala in Spark

Spark：从具有空路径的路径列表中读取数据帧

[英]Spark: Reading data frame from list of paths with empty path

使用 spark databricks 平台从 URL 读取数据

[英]reading data from URL using spark databricks platform

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark Streaming：通过从一个HDFSdir读取到另一个将数据写入HDFS 从分区拼花文件中读取 DataFrame Spark 如何使用同步 API 从数据写入镶木地板文件 Spark中的数据并行性：从hdfs读取avro数据从原始文本到Parquet的Spark SQL：没有性能提升将保存的文本文件从Spark程序读取到另一个 org.apache.spark.sql.AnalysisException：无法解析：从嵌套的 json 读取数据时慢速性能读取S3中的镶木地板文件与Spark中的scala Spark：从具有空路径的路径列表中读取数据帧使用 spark databricks 平台从 URL 读取数据

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM