簡體   English   中英

是否已棄用數據存儲區mapreduce

[英]is datastore mapreduce deprecated

我剛剛安裝了Google Cloud platform以進行免費試用。 為了使用DataStore運行MapReduce任務, 文檔說要運行

./bdutil --upload_files "samples/*" run_command ./test-mr-datastore.sh

但是我無法在本地獲取此文件,並且這樣做有充分的理由,這種運行MapReduce作業的方法似乎已被棄用,請參見github上的內容 確實如此,是否有另一種方法可以從本地命令行創建MapReduce任務而不需要BigQuery

注意 :Google團隊隨后bdutil (2015-05-27)中刪除了DataStore連接器 ,因此您可能需要使用舊版本或使用GCS或BigQuery作為代理來訪問DataStore中的數據。

我會盡我所能,但是bdutil需要更多細節,很難在此答案中進行記錄,但是我希望這能給您足夠的起點:

  • 設置Google Cloud SDK- 詳細信息

     # Download SDK curl https://sdk.cloud.google.com | bash # Restart your shell exec -l $SHELL # Authenticate to GCP gcloud auth login # Select Project gcloud config set project PROJECT_NAME 
  • 下載並解壓縮包含DataStore連接器的bdutil源代碼。

     # Download source which contains DataStore connector wget https://github.com/GoogleCloudPlatform/bdutil/archive/1.2.1.tar.gz -O bdutil.tar.gz # Extract source tar -xvzf bdutil.tar.gz cd bdutil-*/ 
  • 創建bdutil定制環境變量文件。 請參考bdutil配置文檔獲取正確的配置文件,因為您需要指定項目,服務器數量,GCS存儲桶,計算機類型等。

  • 使用datastore_env.sh部署Hadoop實例( 完整文檔

     ./bdutil deploy -e YOUR_ENV_FILE.sh,datastore_env.sh 
  • 連接到Hadoop Master節點

     ./bdutil shell 
  • 現在,在主節點中,您可以運行MapReduce作業,該作業也將有權訪問DataStore。

  • 拒絕您的Hadoop集群

      ./bdutil delete 

確實不推薦使用數據存儲區連接器連接器。

對於您的問題“是否存在從本地命令行創建MapReduce任務的另一種方法”,一種選擇是使用Google Cloud Dataflow 它本身不是MapReduce,而是並行數據處理的編程模型,已在Google取代了MapReduce。 Dataflow SDK包括對數據存儲訪問的支持

與Hadoop不同,您不必設置集群。 您只需編寫代碼(使用Dataflow SDK)並從CLI提交作業。 數據存儲服務將即時創建所需的工作人員來處理您的工作,然后終止他們。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM