Spark：对从 HBase 数据创建的 RDD 进行分区

Question

如果我从 HBase（或 MapR-DB）表中读取一些数据

JavaPairRDD<ImmutableBytesWritable, Result> usersRDD = sc.newAPIHadoopRDD(hbaseConf, TableInputFormat.class, ImmutableBytesWritable.class, Result.class);

生成的 RDD 有 1 个分区，我可以看到调用usersRDD.partitions().size() 。 使用像usersRDD.repartition(10)这样的东西是不可行的，因为 Spark 抱怨说因为 ImmutableBytesWritable 是不可序列化的。

有没有办法让 Spark 从 HBase 数据创建一个分区的 RDD？

Answer 1

使用org.apache.hadoop.hbase.mapreduce.TableInputFormat时的 Spark 分区数取决于 HBase 表的区域数 - 在您的情况下为 1（默认值）。 有关更多详细信息，请查看我对类似问题的回答。

Spark：对从 HBase 数据创建的 RDD 进行分区

问题描述

1 个解决方案

解决方案1
1 2016-10-20 22:04:31

Spark：对从 HBase 数据创建的 RDD 进行分区

问题描述

1 个解决方案

解决方案1 1 2016-10-20 22:04:31

解决方案1
1 2016-10-20 22:04:31