繁体   English   中英

从HDFS加载实木复合地板文件比从S3加载慢。 可能是什么原因呢?

The loading of parquet files from HDFS is slower that the loading from S3. What can be the reasons for that?

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我在HDFS中有数百个实木复合地板文件。 我在AWS S3中也有相同的文件。 在EMR集群上,我运行了机器学习模型,该模型可以从HDFS或S3中获取其学习数据。

从HDFS加载数据时,所花的时间比从S3加载数据所花的时间长。 不应该相反吗? 可能是什么原因?

显然,在两种情况下,EMR群集中使用的硬件(机器)都是相同的。

1 个回复

加载大量文件时,S3出现问题

当您使用大量小文件(小于128 MB的块大小)时,Hadoop会出现问题

假设YARN设置完全相同,我将查看HDFS卷的IOP速率,并确保您的NodeManagers与Datanodes在同一台计算机上运行

5 Flume-将文件从文件服务器加载到HDFS

我想经常将文件从文件服务器加载到HDFS。 较小的文件(2 MB至20 MB)会经常加载到文件服务器中。 这些文件必须加载到HDFS中以进行MR处理。 在将这些文件提供给Map-Reduce作业之前,我看到了2个问题。 如果在运行MR作业时选择了这些文件并将其加载到HDFS ...

7 OOM从实木复合地板加载数据

我们有一个Apache Spark 1.4.0集群,我们希望从HDFS的一组350个镶木文件中加载数据。 当前,当我们尝试运行我们的程序时,我们得到了“ OutOfMemory Error”驱动程序端。 对执行程序和驱动程序进行性能分析时,我们注意到在操作期间,当驱动程序内存不断增加时,执行 ...

8 使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用pyarrow.hdfs.connect()通过 pyarrow 连接到 HDFS 集群 我也知道我可以使用pyarrow.parquet的read_table()读取镶木地板文件 但是, read_table()接受文件路径,而hdfs.connect()给我一个HadoopFil ...

10 如何从R中的HDFS读取镶木地板文件

我需要在R程序中读取存储在HDFS(我有一个受Kerberos保护的Hadoop群集)上的镶木地板文件。 我遇到了几个包,但没有一个完全满足我的需求 rhadoop :看起来像是一个旧项目,没有进一步的开发。 这些库下的rhdfs软件包不支持Parquet文件或Kerberos。 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM