如何從HBase讀取記錄然后存儲到Spark RDD（彈性分布式數據集）中；並讀取一條RDD記錄，然后寫入HBase？

Question

因此，我想編寫代碼以從Hadoop HBase讀取記錄，然后將其存儲到Spark RDD（彈性分布式數據集）中。 並讀取一條RDD記錄，然后寫入HBase。 我對兩者之一都有零知識，我需要使用AWS雲或Hadoop虛擬機。 請有人指導我從頭開始。

Answer 1

請使用Scala中的基本代碼，在該代碼中我們將使用Scala在HBase中讀取數據。 同樣，您可以編寫表創建內容以將數據寫入HBase

import org.apache.hadoop.hbase.client.{HBaseAdmin, Result}
import org.apache.hadoop.hbase.{ HBaseConfiguration, HTableDescriptor }
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.spark._

object HBaseApp {
  def main(args: Array[String]) {
    val sparkConf = new SparkConf().setAppName("HBaseApp").setMaster("local[2]")
    val sc = new SparkContext(sparkConf)
    val conf = HBaseConfiguration.create()
    val tableName = "table1"

    System.setProperty("user.name", "hdfs")
    System.setProperty("HADOOP_USER_NAME", "hdfs")
    conf.set("hbase.master", "localhost:60000")
    conf.setInt("timeout", 100000)
    conf.set("hbase.zookeeper.quorum", "localhost")
    conf.set("zookeeper.znode.parent", "/hbase-unsecure")
    conf.set(TableInputFormat.INPUT_TABLE, tableName)

    val admin = new HBaseAdmin(conf)
    if (!admin.isTableAvailable(tableName)) {
      val tableDesc = new HTableDescriptor(tableName)
      admin.createTable(tableDesc)
    }

    val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])
    println("Number of Records found : " + hBaseRDD.count())
    sc.stop()
  }
}

如何從HBase讀取記錄然后存儲到Spark RDD（彈性分布式數據集）中；並讀取一條RDD記錄，然后寫入HBase？

問題描述

1 個解決方案

解決方案1
2 已采納 2016-06-09 08:32:23

如何從HBase讀取記錄然后存儲到Spark RDD（彈性分布式數據集）中； 並讀取一條RDD記錄，然后寫入HBase？

問題描述

1 個解決方案

解決方案1 2 已采納 2016-06-09 08:32:23

如何從HBase讀取記錄然后存儲到Spark RDD（彈性分布式數據集）中；並讀取一條RDD記錄，然后寫入HBase？

解決方案1
2 已采納 2016-06-09 08:32:23