繁体   English   中英

Python - 无法读取大文件

[英]Python - unable to read a large file

如何从 jupyter-notebook 中的 hdfs 读取大表作为 Pandas DataFrame? 该脚本通过 docker 镜像启动。

图书馆:

  • sasl==0.2.1
  • 节俭==0.11.0
  • 节俭-sasl == 0.4a1
  • Impyla==0.16.2
from impala.dbapi import connect 
from impala.util import as_pandas

impala_conn = connect(host='hostname', port=21050,
auth_mechanism='GSSAPI', 
                      timeout=100000, use_ssl=True, ca_cert=None, 
                      ldap_user=None, ldap_password=None, 
                      kerberos_service_name='impala')

这有效。


import pandas as pd
df = pd.read_sql("select id, crt_mnemo from demo_db.stg_deals_opn LIMIT 100", impala_conn)
print(df)

这不起作用。 操作挂起,不会出错。


import pandas as pd
df = pd.read_sql("select id, crt_mnemo from demo_db.stg_deals_opn LIMIT 1000", impala_conn)
print(df)

这似乎是您可以使用 pandas read_sql 函数从 impala 移动的行数的问题。 我有同样的问题,但限制比你的低。 您可能需要联系数据库管理员来检查大小。 以下是其他选项: https : //docs.cloudera.com/machine-learning/cloud/import-data/topics/ml-running-queries-on-impala-tables.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM