[英]Can we integrate Hadoop with Python?
我有一個項目要求。 我正在使用python腳本分析數據。 最初,我使用txt文件作為該python腳本的輸入。 但是隨着數據的增長,我必須將存儲平台切換到Hadoop HDFS。 如何將HDFS數據提供給python腳本作為輸入? 有什么辦法嗎? 提前致謝。
Hadoop流API:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
您需要了解的所有信息都在這里: http : //www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
除了其他方法,您還可以使用類似JDBC的編譯,綁定,運行模型,將Pig Latin語句和Pig命令嵌入Python腳本中。 對於Python,請確保Jython jar已包含在您的類路徑中。 有關更多詳細信息,請參閱此處的apache pig文檔: https : //pig.apache.org/docs/r0.9.1/cont.html#embed-python
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.