簡體   English   中英

有關在Amazon EMR上使用mrjob運行Mapreduce程序的一些基本疑問

[英]Some elementary doubts about running Mapreduce programs using mrjob on Amazon EMR

我是mrjob的新手,我無法在Amazon EMR上運行該作業。 我將按順序編寫它們。

  1. 我可以在本地計算機上運行mrjob。 但是,當我在/home/ankit/.mrjob.conf和/etc/mrjob.conf中具有mrjob.conf時,該作業不會在本地計算機上執行。 這就是我得到的。 https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
  2. 文檔中“ MR_CONF指定的位置”中的MRJOB_CONF是什么?
  3. 'base_tmp_directory'的用途是什么? 另外,我是否需要在開始作業之前在S3中上載輸入數據,否則它將在執行開始時從本地計算機加載?
  4. 如果我使用一些庫,例如numpy,scikit等,是否需要進行一些引導? 如果是,怎么辦?
  5. 這是我在EMR https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt上執行運行作業命令時得到的結果

有什么辦法嗎?

非常感謝。

  1. 您的網址無效(我收到“訪問被拒絕”錯誤)。
  2. mrjob.conf是一個配置文件。 它可以位於多個位置,請參見http://pythonhosted.org/mrjob/configs-conf.html
  3. 您只需在命令行上指定輸入文件的路徑,就可以使用本地計算機上的輸入數據。 MRJob將為您上傳數據到S3。 如果指定s3:// ... URL,MRJob將使用該S3路徑上的數據。
  4. 要使用非標准軟件包,請參見http://pythonhosted.org/mrjob/writing-and-running.html#custom-python-packages
  5. 您的網址無效(我收到“訪問被拒絕”錯誤)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM