繁体   English   中英

HDFS:使用 Python3 从 HDFS 读取数据以解析 HDFS 中的 XML 文件

[英]HDFS: Read data from HDFS to parse XML files in HDFS using Python3

我在 HDFS 中有大约 1500 个 XML 文件,每个文件大约 2-3Gb。 我需要编写一个 python 脚本来解析 XML 文件以执行 MapReduce。 但是,我在使用 python 访问 HDFS 中的文件时遇到了问题。

我尝试了以下脚本,但收到错误消息。

from snakebite.client import Client
def connection():
hadoop_client = Client('HDFS_hostname', 'HDFS_port', use_trash=False)
for x in hadoop_client.ls(['/']):
    print(x)

以下是错误:

Traceback (most recent call last):
  File "/home/ubuntu/PycharmProjects/textmining/read_data_from_HDFS.py", line 5, in <module>
    from snakebite.client import Client
  File "/usr/local/lib/python3.6/dist-packages/snakebite/client.py", line 1473
    baseTime = min(time * (1L << retries), cap);
                            ^
SyntaxError: invalid syntax

使用 python 从 HDFS 访问文件的最佳推荐方法是什么?

pip install snakebite-py3 

这将帮助您解决该问题...

我遇到了同样的问题。 蛇咬不兼容 python 3.xu 可以在 python 2 中使用它。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM