如何通過 Python 訪問 Hive？

Question

https://cwiki.apache.org/confluence/display/Hive/HiveClient#HiveClient-Python似乎已經過時。

當我將其添加到 /etc/profile 時：

export PYTHONPATH=$PYTHONPATH:/usr/lib/hive/lib/py

然后我可以執行鏈接中列出的導入，除了from hive import ThriftHive實際上需要是：

from hive_service import ThriftHive

接下來示例中的端口是 10000，當我嘗試時它導致程序掛起。 默認的 Hive Thrift 端口是 9083，它停止了掛起。

所以我這樣設置：

from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol
try:
    transport = TSocket.TSocket('<node-with-metastore>', 9083)
    transport = TTransport.TBufferedTransport(transport)
    protocol = TBinaryProtocol.TBinaryProtocol(transport)
    client = ThriftHive.Client(protocol)
    transport.open()
    client.execute("CREATE TABLE test(c1 int)")

    transport.close()
except Thrift.TException, tx:
    print '%s' % (tx.message)

我收到以下錯誤：

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/hive/lib/py/hive_service/ThriftHive.py", line 68, in execute
self.recv_execute()
File "/usr/lib/hive/lib/py/hive_service/ThriftHive.py", line 84, in recv_execute
raise x
thrift.Thrift.TApplicationException: Invalid method name: 'execute'

但是檢查 ThriftHive.py 文件會發現在 Client 類中執行的方法。

如何使用 Python 訪問 Hive？

Answer 1

我相信最簡單的方法是使用 PyHive。

要安裝，您將需要這些庫：

pip install sasl
pip install thrift
pip install thrift-sasl
pip install PyHive

請注意，雖然您將庫安裝為PyHive ，但您將模塊導入為pyhive ，全部為小寫。

如果您使用的是 Linux，則可能需要在運行上述之前單獨安裝 SASL。 使用 apt-get 或 yum 或任何適用於您的發行版的軟件包管理器安裝軟件包 libsasl2-dev。 對於 Windows，GNU.org 上有一些選項，您可以下載二進制安裝程序。 如果您已安裝 xcode 開發人員工具（終端中的xcode-select --install ），則在 Mac 上 SASL 應該可用

安裝后，您可以像這樣連接到 Hive：

from pyhive import hive
conn = hive.Connection(host="YOUR_HIVE_HOST", port=PORT, username="YOU")

現在您有了 hive 連接，您可以選擇如何使用它。 您可以直接查詢：

cursor = conn.cursor()
cursor.execute("SELECT cool_stuff FROM hive_table")
for result in cursor.fetchall():
  use_result(result)

...或使用連接制作 Pandas 數據框：

import pandas as pd
df = pd.read_sql("SELECT cool_stuff FROM hive_table", conn)

Answer 2

我斷言您使用的是 HiveServer2，這就是使代碼不起作用的原因。

您可以使用 pyhs2 正確訪問您的 Hive 以及類似的示例代碼：

import pyhs2

with pyhs2.connect(host='localhost',
               port=10000,
               authMechanism="PLAIN",
               user='root',
               password='test',
               database='default') as conn:
    with conn.cursor() as cur:
        #Show databases
        print cur.getDatabases()

        #Execute query
        cur.execute("select * from table")

        #Return column info from query
        print cur.getSchema()

        #Fetch table results
        for i in cur.fetch():
            print i

注意在用pip安裝pyhs2之前，你可以先安裝python-devel.x86_64 cyrus-sasl-devel.x86_64。

希望這可以幫助你。

參考： https : //cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2#SettingUpHiveServer2-PythonClientDriver

Answer 3

下面的python程序應該可以從python訪問hive表：

import commands

cmd = "hive -S -e 'SELECT * FROM db_name.table_name LIMIT 1;' "

status, output = commands.getstatusoutput(cmd)

if status == 0:
   print output
else:
   print "error"

Answer 4

您可以使用 hive 庫，因為您想從 hive import ThriftHive 導入 hive 類

試試這個例子：

import sys

from hive import ThriftHive
from hive.ttypes import HiveServerException

from thrift import Thrift
from thrift.transport import TSocket
from thrift.transport import TTransport
from thrift.protocol import TBinaryProtocol

try:
  transport = TSocket.TSocket('localhost', 10000)
  transport = TTransport.TBufferedTransport(transport)
  protocol = TBinaryProtocol.TBinaryProtocol(transport)
  client = ThriftHive.Client(protocol)
  transport.open()
  client.execute("CREATE TABLE r(a STRING, b INT, c DOUBLE)")
  client.execute("LOAD TABLE LOCAL INPATH '/path' INTO TABLE r")
  client.execute("SELECT * FROM r")
  while (1):
    row = client.fetchOne()
    if (row == None):
       break
    print row

  client.execute("SELECT * FROM r")
  print client.fetchAll()
  transport.close()
except Thrift.TException, tx:
  print '%s' % (tx.message)

Answer 5

要使用用戶名/密碼並指定端口進行連接，代碼如下所示：

from pyhive import presto

cursor = presto.connect(host='host.example.com',
                    port=8081,
                    username='USERNAME:PASSWORD').cursor()

sql = 'select * from table limit 10'

cursor.execute(sql)

print(cursor.fetchone())
print(cursor.fetchall())

Answer 6

這是一種通用方法，它使我很容易，因為我一直從 python 連接到多個服務器（SQL、Teradata、Hive 等）。 因此，我使用 pyodbc 連接器。 以下是使用 pyodbc 的一些基本步驟（以防您從未使用過它）：

先決條件：在執行以下步驟之前，您應該在 Windows 設置中具有相關的 ODBC 連接。 如果你沒有它，在這里找到相同的

完成后： STEP 1. pip install: pip install pyodbc （這里是從微軟網站下載相關驅動程序的鏈接）

STEP 2. 現在，在你的 python 腳本中導入相同的內容：

import pyodbc

STEP 3. 最后，繼續並提供連接詳細信息如下：

conn_hive = pyodbc.connect('DSN = YOUR_DSN_NAME , SERVER = YOUR_SERVER_NAME, UID = USER_ID, PWD = PSWD' )

使用 pyodbc 最好的部分是我只需要導入一個包就可以連接到幾乎任何數據源。

Answer 7

上面的例子有點過時了。 一個新的例子在這里：

import pyhs2 as hive
import getpass
DEFAULT_DB = 'default'
DEFAULT_SERVER = '10.37.40.1'
DEFAULT_PORT = 10000
DEFAULT_DOMAIN = 'PAM01-PRD01.IBM.COM'

u = raw_input('Enter PAM username: ')
s = getpass.getpass()
connection = hive.connect(host=DEFAULT_SERVER, port= DEFAULT_PORT, authMechanism='LDAP', user=u + '@' + DEFAULT_DOMAIN, password=s)
statement = "select * from user_yuti.Temp_CredCard where pir_post_dt = '2014-05-01' limit 100"
cur = connection.cursor()

cur.execute(statement)
df = cur.fetchall()

除了標准的python 程序外，還需要安裝一些庫以允許Python 建立與Hadoop 數據庫的連接。

1.Pyhs2，Python Hive Server 2 客戶端驅動

2.Sasl，Python 的 Cyrus-SASL 綁定

3.Thrift，Apache Thrift RPC 系統的 Python 綁定

4.PyHive，Hive的Python接口

記得修改可執行文件的權限

chmod +x test_hive2.py ./test_hive2.py

希望對你有幫助。 參考： https : //sites.google.com/site/tingyusz/home/blogs/hiveinpython

Answer 8

禁止用戶在集群節點上下載和安裝包和庫是一種常見的做法。 在這種情況下，@python-starter 和 @goks 的解決方案工作完美，如果 hive 在同一節點上運行。 否則，可以使用beeline而不是hive命令行工具。 查看詳情

#python 2
import commands

cmd = 'beeline -u "jdbc:hive2://node07.foo.bar:10000/...<your connect string>" -e "SELECT * FROM db_name.table_name LIMIT 1;"'

status, output = commands.getstatusoutput(cmd)

if status == 0:
   print output
else:
   print "error"

.

#python 3
import subprocess

cmd = 'beeline -u "jdbc:hive2://node07.foo.bar:10000/...<your connect string>" -e "SELECT * FROM db_name.table_name LIMIT 1;"'

status, output = subprocess.getstatusoutput(cmd)

if status == 0:
   print(output)
else:
   print("error")

Answer 9

pyhs2 不再維護。 更好的選擇是impyla

不要對上面的一些關於 Impala 的例子感到困惑； 只需將HiveServer2 的端口更改為 10000（默認），它的工作方式與 Impala 示例相同。 它是用於 Impala 和 Hive 的相同協議 (Thrift)。

https://github.com/cloudera/impyla

它比 pyhs2 有更多的特性，例如，它具有 Kerberos 身份驗證，這對我們來說是必須的。

from impala.dbapi import connect
conn = connect(host='my.host.com', port=10000)
cursor = conn.cursor()
cursor.execute('SELECT * FROM mytable LIMIT 100')
print cursor.description  # prints the result set's schema
results = cursor.fetchall()

##
cursor.execute('SELECT * FROM mytable LIMIT 100')
for row in cursor:
    process(row)

Cloudera 現在在 hs2 客戶端https://github.com/cloudera/hs2client上投入更多精力，這是一個 C/C++ HiveServer2/Impala 客戶端。 如果您向/從 python 推送大量數據，這可能是一個更好的選擇。 （也有 Python 綁定 - https://github.com/cloudera/hs2client/tree/master/python ）

關於impyla的更多信息：

Answer 10

類似於eycheu的解決方案，但更詳細一點。

這是一個專門針對 hive2的替代解決方案，它不需要 PyHive 或安裝系統范圍的軟件包。 我正在一個 linux 環境中工作，我沒有 root 訪問權限，因此安裝 Tristin 的帖子中提到的 SASL 依賴項對我來說不是一個選擇：

如果您使用的是 Linux，則可能需要在運行上述之前單獨安裝 SASL。 使用 apt-get 或 yum 或任何適用於您的發行版的軟件包管理器安裝軟件包 libsasl2-dev。

具體來說，該解決方案側重於利用 python 包：JayDeBeApi。 根據我的經驗，在 python Anaconda 2.7 安裝之上安裝這個額外的包就是我所需要的。 這個包利用了 java (JDK)。 我假設已經設置好了。

第 1 步：安裝 JayDeBeApi

pip install jaydebeap

第 2 步：下載適合您環境的驅動程序：

這是企業 CDH 環境所需的 jar的鏈接
另一篇討論在何處可以找到 Apache Hive 的 jdbc 驅動程序的帖子

將所有 .jar 文件存儲在一個目錄中。 我將此目錄稱為 /path/to/jar/files/。

第 3 步：確定您的系統身份驗證機制：

在列出的 pyhive 解決方案中，我看到 PLAIN 被列為身份驗證機制以及 Kerberos。 請注意，您的 jdbc 連接 URL 將取決於您使用的身份驗證機制。 我將在不傳遞用戶名/密碼的情況下解釋Kerberos 解決方案。 以下是 Kerberos 身份驗證和選項的更多信息。

如果尚未創建，請創建 Kerberos 票證

$ kinit

門票可以通過klist查看。

您現在已准備好通過 python 建立連接：

import jaydebeapi
import glob
# Creates a list of jar files in the /path/to/jar/files/ directory
jar_files = glob.glob('/path/to/jar/files/*.jar')

host='localhost'
port='10000'
database='default'

# note: your driver will depend on your environment and drivers you've
# downloaded in step 2
# this is the driver for my environment (jdbc3, hive2, cloudera enterprise)
driver='com.cloudera.hive.jdbc3.HS2Driver'

conn_hive = jaydebeapi.connect(driver,
        'jdbc:hive2://'+host+':' +port+'/'+database+';AuthMech=1;KrbHostFQDN='+host+';KrbServiceName=hive'
                           ,jars=jar_files)

如果您只關心閱讀，那么您可以通過 eycheu 的解決方案輕松地將其直接讀入熊貓的數據幀：

import pandas as pd
df = pd.read_sql("select * from table", conn_hive)

否則，這里有一個更通用的通信選項：

cursor = conn_hive.cursor()
sql_expression = "select * from table"
cursor.execute(sql_expression)
results = cursor.fetchall()

你可以想象，如果你想創建一個表，你不需要“獲取”結果，而是可以提交一個創建表查詢。

Answer 11

類似於@python-starter 解決方案。 但是，命令包在 python3.x 上不可用。 所以替代解決方案是在 python3.x 中使用子進程

import subprocess

cmd = "hive -S -e 'SELECT * FROM db_name.table_name LIMIT 1;' "

status, output = subprocess.getstatusoutput(cmd)

if status == 0:
   print(output)
else:
   print("error")

Answer 12

這可以是連接 hive 和 python 的快速技巧，

from pyhive import hive
cursor = hive.connect('YOUR_HOST_NAME').cursor()
cursor.execute('SELECT * from table_name LIMIT 5',async=True)
print cursor.fetchall()

輸出：元組列表

Answer 13

您可以使用 python JayDeBeApi 包從 Hive 或 Impala JDBC 驅動程序創建 DB-API 連接，然后將連接傳遞給 pandas.read_sql 函數以返回熊貓數據幀中的數據。

import jaydebeapi
# Apparently need to load the jar files for the first time for impala jdbc driver to work 
conn = jaydebeapi.connect('com.cloudera.hive.jdbc41.HS2Driver',
['jdbc:hive2://host:10000/db;AuthMech=1;KrbHostFQDN=xxx.com;KrbServiceName=hive;KrbRealm=xxx.COM', "",""],
jars=['/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/HiveJDBC41.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/TCLIServiceClient.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/commons-codec-1.3.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/commons-logging-1.1.1.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/hive_metastore.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/hive_service.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/httpclient-4.1.3.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/httpcore-4.1.3.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/libfb303-0.9.0.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/libthrift-0.9.0.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/log4j-1.2.14.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/ql.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/slf4j-api-1.5.11.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/slf4j-log4j12-1.5.11.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/zookeeper-3.4.6.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/ImpalaJDBC41.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/TCLIServiceClient.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/commons-codec-1.3.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/commons-logging-1.1.1.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/hive_metastore.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/hive_service.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/httpclient-4.1.3.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/httpcore-4.1.3.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/libfb303-0.9.0.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/libthrift-0.9.0.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/log4j-1.2.14.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/ql.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/slf4j-api-1.5.11.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/slf4j-log4j12-1.5.11.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/zookeeper-3.4.6.jar'
])

# the previous call have initialized the jar files, technically this call needs not include the required jar files
impala_conn = jaydebeapi.connect('com.cloudera.impala.jdbc41.Driver',
['jdbc:impala://host:21050/db;AuthMech=1;KrbHostFQDN=xxx.com;KrbServiceName=impala;KrbRealm=xxx.COM',"",""],
jars=['/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/HiveJDBC41.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/TCLIServiceClient.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/commons-codec-1.3.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/commons-logging-1.1.1.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/hive_metastore.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/hive_service.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/httpclient-4.1.3.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/httpcore-4.1.3.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/libfb303-0.9.0.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/libthrift-0.9.0.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/log4j-1.2.14.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/ql.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/slf4j-api-1.5.11.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/slf4j-log4j12-1.5.11.jar',
'/hadp/opt/jdbc/hive_jdbc_2.5.18.1050/2.5.18.1050 GA/Cloudera_HiveJDBC41_2.5.18.1050/zookeeper-3.4.6.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/ImpalaJDBC41.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/TCLIServiceClient.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/commons-codec-1.3.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/commons-logging-1.1.1.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/hive_metastore.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/hive_service.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/httpclient-4.1.3.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/httpcore-4.1.3.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/libfb303-0.9.0.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/libthrift-0.9.0.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/log4j-1.2.14.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/ql.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/slf4j-api-1.5.11.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/slf4j-log4j12-1.5.11.jar',
'/hadp/opt/jdbc/impala_jdbc_2.5.35/2.5.35.1055 GA/Cloudera_ImpalaJDBC41_2.5.35/zookeeper-3.4.6.jar'
])

import pandas as pd
df1 = pd.read_sql("SELECT * FROM tablename", conn)
df2 = pd.read_sql("SELECT * FROM tablename", impala_conn)

conn.close()
impala_conn.close()

Answer 14

最簡單的方法是使用 PyHive。

要安裝，您將需要這些庫：

pip install sasl
pip install thrift
pip install thrift-sasl
pip install PyHive

安裝后，您可以像這樣連接到 Hive：

from pyhive import hive
conn = hive.Connection(host="YOUR_HIVE_HOST", port=PORT, username="YOU")

現在您有了 hive 連接，您可以選擇如何使用它。 您可以直接查詢：

cursor = conn.cursor()
cursor.execute("SELECT cool_stuff FROM hive_table")
for result in cursor.fetchall():
  use_result(result)

...或使用連接制作 Pandas 數據框：

import pandas as pd
df = pd.read_sql("SELECT cool_stuff FROM hive_table", conn)

Answer 15

我已經和你解決了同樣的問題，這里是我的運行環境（System:linux Versions:python 3.6 Package:Pyhive）請參考我的回答如下：

from pyhive import hive
conn = hive.Connection(host='149.129.***.**', port=10000, username='*', database='*',password="*",auth='LDAP')

關鍵是添加參考密碼和身份驗證，同時將身份驗證設置為等於 'LDAP' 。 然后它運作良好，任何問題請告訴我

Answer 16

通過使用 Python 客戶端驅動程序

pip install pyhs2

然后

import pyhs2

with pyhs2.connect(host='localhost',
               port=10000,
               authMechanism="PLAIN",
               user='root',
               password='test',
               database='default') as conn:
with conn.cursor() as cur:
    #Show databases
    print cur.getDatabases()

    #Execute query
    cur.execute("select * from table")

    #Return column info from query
    print cur.getSchema()

    #Fetch table results
    for i in cur.fetch():
        print i

參考： https : //cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2#SettingUpHiveServer2-PythonClientDriver

Answer 17

沒有一個答案演示如何獲取和打印表頭。 修改了廣泛使用並積極維護的PyHive的標准示例。

from pyhive import hive
cursor = hive.connect(host="localhost", 
                      port=10000, 
                      username="shadan", 
                      auth="KERBEROS", 
                      kerberos_service_name="hive"
                      ).cursor()
cursor.execute("SELECT * FROM my_dummy_table LIMIT 10")
columnList = [desc[0] for desc in cursor.description]
headerStr = ",".join(columnList)
headerTuple = tuple(headerStr.split (",")
print(headerTuple)
print(cursor.fetchone())
print(cursor.fetchall())

Answer 18

最簡單的方法| 使用sqlalchemy

要求：

pip 安裝 pyhive

代碼：

import pandas as pd
from sqlalchemy import create_engine

SECRET = {'username':'lol', 'password': 'lol'}
user_name = SECRET.get('username')
passwd = SECRET.get('password')

host_server = 'x.x.x.x'
port = '10000'
database = 'default'
conn = f'hive://{user_name}:{passwd}@{host_server}:{port}/{database}'
engine = create_engine(conn, connect_args={'auth': 'LDAP'})

query = "select * from tablename limit 100"
data = pd.read_sql(query, con=engine)
print(data)

如何通過 Python 訪問 Hive？

問題描述

18 個解決方案

解決方案1
57 2015-11-06 06:33:28

解決方案2
27 2014-09-26 14:24:36

解決方案3
13 2015-06-09 12:10:43

解決方案4
6 2014-01-27 12:21:58

解決方案5
6 2017-02-10 18:25:45

解決方案6
6 2019-01-15 02:40:27

解決方案7
4 2014-10-22 09:58:02

解決方案8
4 2018-08-29 17:56:25

解決方案9
3 2016-07-29 20:01:52

解決方案10
3 2017-08-09 14:53:41

解決方案11
3 2017-11-01 15:14:37

解決方案12
2 2016-12-07 22:29:34

解決方案13
2 2016-12-09 11:54:02

解決方案14
1 2021-02-11 17:25:40

解決方案15
0 2018-12-20 03:00:34

解決方案16
0 2019-01-09 12:12:32

解決方案17
0 2020-08-27 19:02:35

解決方案18
0 2021-02-11 06:09:10

最簡單的方法| 使用sqlalchemy

如何通過 Python 訪問 Hive？

問題描述

18 個解決方案

解決方案1 57 2015-11-06 06:33:28

解決方案2 27 2014-09-26 14:24:36

解決方案3 13 2015-06-09 12:10:43

解決方案4 6 2014-01-27 12:21:58

解決方案5 6 2017-02-10 18:25:45

解決方案6 6 2019-01-15 02:40:27

解決方案7 4 2014-10-22 09:58:02

解決方案8 4 2018-08-29 17:56:25

解決方案9 3 2016-07-29 20:01:52

解決方案10 3 2017-08-09 14:53:41

解決方案11 3 2017-11-01 15:14:37

解決方案12 2 2016-12-07 22:29:34

解決方案13 2 2016-12-09 11:54:02

解決方案14 1 2021-02-11 17:25:40

解決方案15 0 2018-12-20 03:00:34

解決方案16 0 2019-01-09 12:12:32

解決方案17 0 2020-08-27 19:02:35

解決方案18 0 2021-02-11 06:09:10

最簡單的方法| 使用sqlalchemy

解決方案1
57 2015-11-06 06:33:28

解決方案2
27 2014-09-26 14:24:36

解決方案3
13 2015-06-09 12:10:43

解決方案4
6 2014-01-27 12:21:58

解決方案5
6 2017-02-10 18:25:45

解決方案6
6 2019-01-15 02:40:27

解決方案7
4 2014-10-22 09:58:02

解決方案8
4 2018-08-29 17:56:25

解決方案9
3 2016-07-29 20:01:52

解決方案10
3 2017-08-09 14:53:41

解決方案11
3 2017-11-01 15:14:37

解決方案12
2 2016-12-07 22:29:34

解決方案13
2 2016-12-09 11:54:02

解決方案14
1 2021-02-11 17:25:40

解決方案15
0 2018-12-20 03:00:34

解決方案16
0 2019-01-09 12:12:32

解決方案17
0 2020-08-27 19:02:35

解決方案18
0 2021-02-11 06:09:10