![](/img/trans.png)
[英]Can't connect to Hive server with spark JDBC in kerberised cluster
[英]Connect to Hive with jdbc driver in Spark
我需要使用 Spark 将数据从远程 Hive 移动到本地 Hive。 我尝试使用 JDBC 驱动程序连接到远程 hive:'org.apache.hive.jdbc.HiveDriver'。 我现在正在尝试从 Hive 读取结果是列值中的列标题而不是实际数据:
df = self.spark_session.read.format('JDBC') \
.option('url', "jdbc:hive2://{self.host}:{self.port}/{self.database}") \
.option('driver', 'org.apache.hive.jdbc.HiveDriver') \
.option("user", self.username) \
.option("password", self.password)
.option('dbtable', 'test_table') \
.load()
df.show()
结果:
+----------+
|str_column|
+----------+
|str_column|
|str_column|
|str_column|
|str_column|
|str_column|
+----------+
我知道 Hive JDBC 不是 Apache Spark 的官方支持。 但我已经找到了从其他不受支持的来源下载的解决方案,例如 IMB Informix。 也许有人已经解决了这个问题。
调试和跟踪代码后,我们会发现问题在 JdbcDialect。没有 HiveDialect,所以 spark 将使用默认的 JdbcDialect.quoteIdentifier。所以你应该实现一个 HiveDialect 来解决这个问题:
import org.apache.spark.sql.jdbc.JdbcDialect
class HiveDialect extends JdbcDialect{
override def canHandle(url: String): Boolean =
url.startsWith("jdbc:hive2")
override def quoteIdentifier(colName: String): String = {
if(colName.contains(".")){
var colName1 = colName.substring(colName.indexOf(".") + 1)
return s"`$colName1`"
}
s"`$colName`"
}
}
然后通过以下方式注册方言:
JdbcDialects.registerDialect(new HiveDialect)
最后,像这样将选项 hive.resultset.use.unique.column.names=false 添加到 url
option("url", "jdbc:hive2://bigdata01:10000?hive.resultset.use.unique.column.names=false")
参考csdn博客
Apache Kyuubi 在这里提供了一个 Hive 方言插件。 https://kyuubi.readthedocs.io/en/latest/extensions/engines/spark/jdbc-dialect.html
Hive 方言插件旨在为 Spark 的 JDBC 源提供 Hive 方言支持。 它将自动注册到 Spark 并应用于 url 前缀为jdbc:hive2://
或jdbc:kyuubi://
的 JDBC 源。 它将以 Hive SQL 样式引用标识符,例如。 引用 table.column in table
。 column
。
spark.sql.extensions=org.apache.spark.sql.dialect.KyuubiSparkJdbcDialectExtension
,它将自动注册到 spark
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.