[英]How to execute a python file (.py) on hadoop distributed file system (hdfs)
[英]Repartitioning in Hadoop Distributed File System ( HDFS )
有没有办法直接在HDFS中重新分配数据? 如果您注意到您的分区不平衡(一个或多个比其他分区大得多)您如何处理它?
我知道它可以在Apache Spark中完成,但运行一个工作只是重新分配似乎是开销 - 或者这可能是个好主意?
运行hdfs balancer
。 此工具可在数据节点之间均匀分配HDFS块。
https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#balancer
如果您运行的是Cloudera Manager或Ambari托管分发,则可以从其Web UI运行HDFS balancer。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.