簡體   English   中英

如何從遠程python服務連接到CDH群集

[英]how to connect to CDH cluster from Remote python service

我在aws上運行CDH集群。 在連接到ECS群集的不同ec2機器上也有運行的服務集。 全部都在一個VPN中。 我的用例是將運行在ec2上的外部服務中的數據寫入CDH hadoop集群。 我正在嘗試找出最佳方法。 請建議我在python中如何實現這一目標的可能方法。

Apache Hadoop提供了WebHDFS ,這是HDFS操作的HTTP接口。 這使您可以使用任何Python HTTP客戶端庫(例如httpliburlliburllib2在HDFS中操作文件。 實際上,您可以使用提供HTTP客戶端庫的任何編程語言來訪問WebHDFS。

您還可以使用Pydoop ,它在Python和HDFS之間提供了更直接的集成。 Pydoop實現使用LibHDFS ,它是對標准HDFS Java客戶端的C包裝。 因此,它將直接使用HDFS RPC協議而不是HTTP。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM