繁体   English   中英

Python和Hadoop-使用python直接获取数据并将其直接写入hdfs?

[英]Python and Hadoop - fetch and write data directly to hdfs using python?

我想每天从yahoo / google财务中获取与股票的eod价格相关的数据。 这些价格应直接存储在HDFS中。

稍后,我可以在其上制作外部表(使用HIVE)并用于进一步分析。

因此,我没有在寻找基本的map-reduce,因为我没有任何输入文件。 python中是否有可用的连接器,可以在Hadoop中写入数据?

首先将数据转储到本地文件中。 然后找到一种将文件上传到HDFS的方法。

  • 如果您在“边缘节点”(即不是集群的一部分但已安装并配置了所有Hadoop客户端的Linux盒)上运行作业,那么您将拥有良好的旧HDFS命令行界面

hdfs dfs -put data.txt /user/johndoe/some/hdfs/dir/

  • 如果您在其他任何地方运行任务,请使用HTTP库(或良好的旧curl命令行)连接到HDFS REST服务-根据群集的设置方式可以是webHDFS或httpFS-并上传带有PUT请求的文件

http://namenode:port/webhdfs/v1/user/johndoe/some/hdfs/dir/data.txt?op=CREATE&overwrite=false

(当然还有“ data.txt”的内容作为有效载荷)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM