[英]Info on building Spark with “(CDH 4.2.0), yarn (Hadoop 2.4.0)” with Hive?
我打算構建Spark以在EC2上分拆。 默認的spark_ec2.py下載了一個預先構建的軟件包(對於Hadoop 1.0.4,為1;對於CDH 4.2.0,紗線(Hadoop 2.4.0),為2),但該軟件包不帶'-Phive -Phive-thriftserver'選項。 通常,我需要使用Hive UDF,並且必須從源代碼構建它。 (我也需要YARN,因為“ Spark上的Hive默認支持YARN模式下的Spark。”)
“ Building Spark”頁面顯示了許多示例,似乎混合了以下內容
mvn -Dhadoop.version=2.0.0-mr1-cdh4.2.0 -Phadoop-1 -DskipTests clean package
和
mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Phive -Phive-thriftserver -DskipTests clean package
(來源: http : //spark.apache.org/docs/latest/building-spark.html )
目前,以下是我能想到的
mvn -Pyarn -Dhadoop.version=2.4.0-mr1-cdh4.2.0 -Phadoop-1 -Phive -Phive-thriftserver -DskipTests clean package
誰能告知以上內容是否正確,或者讓我知道可以從中學習的其他資源?
謝謝。
我誤解了--hadoop-major-version
有3個選擇:
我使用了spark.ami.hvm.v14 (ami-35b1885c)
,並能夠通過以下方式成功構建。
./make-distribution.sh --name spark-1.6.0-bin-hadoop2.4-hive-yarn --tgz -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Psparkr -Phive -Phive-thriftserver -DskipTests
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.