簡體   English   中英

我們可以將Hadoop與Python集成嗎?

[英]Can we integrate Hadoop with Python?

我有一個項目要求。 我正在使用python腳本分析數據。 最初,我使用txt文件作為該python腳本的輸入。 但是隨着數據的增長,我必須將存儲平台切換到Hadoop HDFS。 如何將HDFS數據提供給python腳本作為輸入? 有什么辦法嗎? 提前致謝。

Hadoop流API:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc

您需要了解的所有信息都在這里: http : //www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

除了其他方法,您還可以使用類似JDBC的編譯,綁定,運行模型,將Pig Latin語句和Pig命令嵌入Python腳本中。 對於Python,請確保Jython jar已包含在您的類路徑中。 有關更多詳細信息,請參閱此處的apache pig文檔: https : //pig.apache.org/docs/r0.9.1/cont.html#embed-python

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM