Spark结构化流与Hbase集成

Question

We are doing streaming on kafka data which being collected from MySQL. 我们正在对从MySQL收集的kafka数据进行流式传输。 Now once all the analytics has been done i want to save my data directly to Hbase. 现在，一旦完成所有分析，我想将我的数据直接保存到Hbase。 I have through the spark structured streaming document but couldn't find any sink with Hbase. 我已经通过spark结构化的流媒体文档，但找不到Hbase的任何接收器。 Code which I used to read the data from Kafka is below. 我用来读取卡夫卡数据的代码如下。

 val records = spark.readStream.format("kafka").option("subscribe", "kaapociot").option("kafka.bootstrap.servers", "XX.XX.XX.XX:6667").option("startingOffsets", "earliest").load
 val jsonschema = StructType(Seq(StructField("header", StringType, true),StructField("event", StringType, true)))
 val uschema = StructType(Seq(
             StructField("MeterNumber", StringType, true),
             StructField("Utility", StringType, true),
             StructField("VendorServiceNumber", StringType, true),
             StructField("VendorName", StringType, true),
             StructField("SiteNumber",  StringType, true),
             StructField("SiteName", StringType, true),
             StructField("Location", StringType, true),
             StructField("timestamp", LongType, true),
             StructField("power", DoubleType, true)
             ))
 val DF_Hbase = records.selectExpr("cast (value as string) as Json").select(from_json($"json",schema=jsonschema).as("data")).select("data.event").select(from_json($"event", uschema).as("mykafkadata")).select("mykafkadata.*")

Now finally, I want to save DF_Hbase dataframe in hbase. 最后，我想在hbase中保存DF_Hbase数据帧。

Answer 1

1- add these libraries to your project : 1-将这些库添加到您的项目中：

      "org.apache.hbase" % "hbase-client" % "2.0.1"
      "org.apache.hbase" % "hbase-common" % "2.0.1"

2- add this trait to your code : 2-将此特性添加到您的代码中：

   import java.util.concurrent.ExecutorService
   import org.apache.hadoop.hbase.client.{Connection, ConnectionFactory, Put, Table}
   import org.apache.hadoop.hbase.security.User
   import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}
   import org.apache.spark.sql.ForeachWriter

   trait HBaseForeachWriter[RECORD] extends ForeachWriter[RECORD] {

     val tableName: String
     val hbaseConfResources: Seq[String]

     def pool: Option[ExecutorService] = None

     def user: Option[User] = None

     private var hTable: Table = _
     private var connection: Connection = _


     override def open(partitionId: Long, version: Long): Boolean = {
       connection = createConnection()
       hTable = getHTable(connection)
       true
     }

     def createConnection(): Connection = {
       val hbaseConfig = HBaseConfiguration.create()
       hbaseConfResources.foreach(hbaseConfig.addResource)
       ConnectionFactory.createConnection(hbaseConfig, pool.orNull,                      user.orNull)

     }

     def getHTable(connection: Connection): Table = {
       connection.getTable(TableName.valueOf(tableName))
     }

     override def process(record: RECORD): Unit = {
       val put = toPut(record)
       hTable.put(put)
     }

     override def close(errorOrNull: Throwable): Unit = {
       hTable.close()
       connection.close()
     }

     def toPut(record: RECORD): Put

   }

3- use it for your logic : 3-将它用于你的逻辑：

    val ds = .... //anyDataset[WhatEverYourDataType]

    val query = ds.writeStream
           .foreach(new HBaseForeachWriter[WhatEverYourDataType] {
                            override val tableName: String = "hbase-table-name"
                            //your cluster files, i assume here it is in resources  
                            override val hbaseConfResources: Seq[String] = Seq("core-site.xml", "hbase-site.xml") 

                            override def toPut(record: WhatEverYourDataType): Put = {
                              val key = .....
                              val columnFamaliyName : String = ....
                              val columnName : String = ....
                              val columnValue = ....

                              val p = new Put(Bytes.toBytes(key))
                              //Add columns ... 
                   p.addColumn(Bytes.toBytes(columnFamaliyName),
                               Bytes.toBytes(columnName), 
                               Bytes.toBytes(columnValue))

                              p
                            }

                          }
           ).start()

         query.awaitTermination()

Answer 2

This method worked for me even using pyspark: https://github.com/hortonworks-spark/shc/issues/205 即使使用pyspark，这种方法也适用于我： https ： //github.com/hortonworks-spark/shc/issues/205

package HBase
import org.apache.spark.internal.Logging
import org.apache.spark.sql.execution.streaming.Sink
import org.apache.spark.sql.sources.{DataSourceRegister, StreamSinkProvider}
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.{DataFrame, SQLContext}
import org.apache.spark.sql.execution.datasources.hbase._

class HBaseSink(options: Map[String, String]) extends Sink with Logging {
  // String with HBaseTableCatalog.tableCatalog
  private val hBaseCatalog = options.get("hbasecat").map(_.toString).getOrElse("")

  override def addBatch(batchId: Long, data: DataFrame): Unit = synchronized {   
    val df = data.sparkSession.createDataFrame(data.rdd, data.schema)
    df.write
      .options(Map(HBaseTableCatalog.tableCatalog->hBaseCatalog,
        HBaseTableCatalog.newTable -> "5"))
      .format("org.apache.spark.sql.execution.datasources.hbase").save()
  }
}

class HBaseSinkProvider extends StreamSinkProvider with DataSourceRegister {
  def createSink(
                  sqlContext: SQLContext,
                  parameters: Map[String, String],
                  partitionColumns: Seq[String],
                  outputMode: OutputMode): Sink = {
    new HBaseSink(parameters)
  }

  def shortName(): String = "hbase"
}

I added the file named as HBaseSinkProvider.scala to shc/core/src/main/scala/org/apache/spark/sql/execution/datasources/hbase and built it, the example works perfect 我将名为HBaseSinkProvider.scala的文件添加到shc/core/src/main/scala/org/apache/spark/sql/execution/datasources/hbase并构建它，示例工作完美

This is example, how to use (scala): 这是示例，如何使用（scala）：

inputDF.
   writeStream.
   queryName("hbase writer").
   format("HBase.HBaseSinkProvider").
   option("checkpointLocation", checkPointProdPath).
   option("hbasecat", catalog).
   outputMode(OutputMode.Update()).
   trigger(Trigger.ProcessingTime(30.seconds)).
   start

And an example of how i use it in python: 以及我如何在python中使用它的一个例子：

inputDF \
    .writeStream \
    .outputMode("append") \
    .format('HBase.HBaseSinkProvider') \
    .option('hbasecat', catalog_kafka) \
    .option("checkpointLocation", '/tmp/checkpoint') \
    .start()

Answer 3

Are you processing the data coming from Kafka? 您在处理来自Kafka的数据吗？ Or just pumping it to HBase? 或者只是将它泵送到HBase？ An option to consider is using Kafka Connect . 要考虑的选项是使用Kafka Connect 。 This gives you a configuration-file based approach for integrating Kafka with other systems, including HBase. 这为您提供了一种基于配置文件的方法，用于将Kafka与其他系统（包括HBase）集成。

Spark结构化流与Hbase集成

问题描述

3 个解决方案

解决方案1
6 2018-06-29 13:51:32

解决方案2
2 2018-03-23 12:59:26

解决方案3
0 2017-11-07 10:14:19

Spark结构化流与Hbase集成

问题描述

3 个解决方案

解决方案1 6 2018-06-29 13:51:32

解决方案2 2 2018-03-23 12:59:26

解决方案3 0 2017-11-07 10:14:19

解决方案1
6 2018-06-29 13:51:32

解决方案2
2 2018-03-23 12:59:26

解决方案3
0 2017-11-07 10:14:19