繁体 English 中英

我应该使用哪种HBase HBase连接器？

[英]Which HBase connector for Spark 2.0 should I use?

原文 2016-12-01 11:00:00 9 2 scala/ apache-spark/ hbase/ google-cloud-dataproc/ google-cloud-bigtable

我们的堆栈由Google Data Proc（Spark 2.0）和Google BigTable（HBase 1.2.0）组成，我正在寻找使用这些版本的连接器。

对于我找到的连接器，我不清楚Spark 2.0和新的DataSet API支持：

spark-hbase ： https ： //github.com/apache/hbase/tree/master/hbase-spark
spark-hbase-connector ： https ： //github.com/nerdammer/spark-hbase-connector
hortonworks-spark / shc ： https ： //github.com/hortonworks-spark/shc

该项目使用SBT在Scala 2.11中编写。

谢谢你的帮助

2 个解决方案

更新：SHC现在似乎可以与Spark 2和Table API一起使用。 请参阅https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/scala/bigtable-shc

原始答案：

我不相信任何这些（或任何其他现有的连接器）将完成您今天想要的所有工作。

spark-hbase在它发布时可能是正确的解决方案（HBase 1.4？），但目前只能在头部构建，并且仍在使用Spark 2支持。
spark-hbase-connector似乎只支持RDD API，但由于它们更稳定，可能会有所帮助。
hortonworks-spark / shc可能无法正常工作，因为我认为它只支持Spark 1并使用不适用于BigTable的旧HTable API。

我建议只使用HBase MapReduce API和RDD方法，如newAPIHadoopRDD（或者可能是spark-hbase-connector？）。 然后手动将RDD转换为DataSet。 在Scala或Java中，这种方法比Python更容易。

这是HBase社区正在努力改进的领域，Google Cloud Dataproc将在这些改进发生时将其纳入其中。

除了上面的答案，使用newAPIHadoopRDD意味着，你从HBase获得所有数据，从那时起，它的所有核心火花。 您不会获得任何HBase特定的API，如过滤器等。而目前的spark-hbase，只有快照可用。

Hbase Spark 连接器

[英]Hbase Spark Connector

HBase Spark-与Spark 2.0的连接

[英]HBase Spark - Connectivity with Spark 2.0

Spark Hbase连接器（SHC）不从HBase表返回任何数据

[英]Spark Hbase connector (SHC) is not returning any data from HBase table

spark-hbase-connector：ZooKeeper中的ClusterId读取为空

[英]spark-hbase-connector : ClusterId read in ZooKeeper is null

我应该在Spark sql中使用哪一个以获得更好的性能，要么从Parquet文件中读取数据，要么从数据库中读取数据？

[英]Which one should i use in spark sql for better performance, either reading the data from Parquet file or reading data from database?

我可以使用 memoization 来缓存来自 spark 作业的 hbase 读写数据吗？

[英]Can I use memoization to cache data in the hbase read and write from spark job?

如何在本地使用Spark BigQuery Connector？

[英]How to use Spark BigQuery Connector locally?

无法使用spark-cassandra-connector

[英]Fail to use spark-cassandra-connector

如何在 Spark BigQuery 连接器 (Scala) 中使用 IN 子句

[英]How to use IN clause with Spark BigQuery Connector (Scala)

我应该使用Java中的哪个ThreadPool？

[英]Which ThreadPool in Java should I use?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Hbase Spark 连接器 HBase Spark-与Spark 2.0的连接 Spark Hbase连接器（SHC）不从HBase表返回任何数据 spark-hbase-connector：ZooKeeper中的ClusterId读取为空我应该在Spark sql中使用哪一个以获得更好的性能，要么从Parquet文件中读取数据，要么从数据库中读取数据？我可以使用 memoization 来缓存来自 spark 作业的 hbase 读写数据吗？如何在本地使用Spark BigQuery Connector？无法使用spark-cassandra-connector 如何在 Spark BigQuery 连接器 (Scala) 中使用 IN 子句我应该使用Java中的哪个ThreadPool？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM