我有一组带前缀的(根据 S3 性能建议)镶木地板文件,我想在 spark 中加载(使用 Amazon EMR 5.11.1)但是 列出与 glob 匹配的文件集所花费的时间比非前缀文件慢得多,这可以改进吗? 如何避免以下错误? ...
提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供 中文繁体 英文版本 中英对照 版本,有任何建议请联系yoyou2525@163.com。
我在HDFS中有数百个实木复合地板文件。 我在AWS S3中也有相同的文件。 在EMR集群上,我运行了机器学习模型,该模型可以从HDFS或S3中获取其学习数据。
从HDFS加载数据时,所花的时间比从S3加载数据所花的时间长。 不应该相反吗? 可能是什么原因?
显然,在两种情况下,EMR群集中使用的硬件(机器)都是相同的。
加载大量文件时,S3出现问题
当您使用大量小文件(小于128 MB的块大小)时,Hadoop会出现问题
假设YARN设置完全相同,我将查看HDFS卷的IOP速率,并确保您的NodeManagers与Datanodes在同一台计算机上运行
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.