是否已棄用數據存儲區mapreduce

Question

我剛剛安裝了Google Cloud platform以進行免費試用。 為了使用DataStore運行MapReduce任務，文檔說要運行

./bdutil --upload_files "samples/*" run_command ./test-mr-datastore.sh

但是我無法在本地獲取此文件，並且這樣做有充分的理由，這種運行MapReduce作業的方法似乎已被棄用，請參見github上的內容。 確實如此，是否有另一種方法可以從本地命令行創建MapReduce任務而不需要BigQuery ？

Answer 1

注意：Google團隊隨后從bdutil （2015-05-27）中刪除了DataStore連接器，因此您可能需要使用舊版本或使用GCS或BigQuery作為代理來訪問DataStore中的數據。

我會盡我所能，但是bdutil需要更多細節，很難在此答案中進行記錄，但是我希望這能給您足夠的起點：

設置Google Cloud SDK- 詳細信息

 # Download SDK curl https://sdk.cloud.google.com | bash # Restart your shell exec -l $SHELL # Authenticate to GCP gcloud auth login # Select Project gcloud config set project PROJECT_NAME

下載並解壓縮包含DataStore連接器的bdutil源代碼。

 # Download source which contains DataStore connector wget https://github.com/GoogleCloudPlatform/bdutil/archive/1.2.1.tar.gz -O bdutil.tar.gz # Extract source tar -xvzf bdutil.tar.gz cd bdutil-*/

創建bdutil定制環境變量文件。 請參考bdutil配置文檔以獲取正確的配置文件，因為您需要指定項目，服務器數量，GCS存儲桶，計算機類型等。
使用datastore_env.sh部署Hadoop實例（完整文檔）
```
 ./bdutil deploy -e YOUR_ENV_FILE.sh,datastore_env.sh 
```
連接到Hadoop Master節點
```
 ./bdutil shell 
```
現在，在主節點中，您可以運行MapReduce作業，該作業也將有權訪問DataStore。
拒絕您的Hadoop集群
```
  ./bdutil delete 
```

Answer 2

確實不推薦使用數據存儲區連接器連接器。

對於您的問題“是否存在從本地命令行創建MapReduce任務的另一種方法”，一種選擇是使用Google Cloud Dataflow 。 它本身不是MapReduce，而是並行數據處理的編程模型，已在Google取代了MapReduce。 Dataflow SDK包括對數據存儲訪問的支持。

與Hadoop不同，您不必設置集群。 您只需編寫代碼（使用Dataflow SDK）並從CLI提交作業。 數據存儲服務將即時創建所需的工作人員來處理您的工作，然后終止他們。

是否已棄用數據存儲區mapreduce

問題描述

2 個解決方案

解決方案1
1 2015-06-09 04:39:13

解決方案2
1 2015-06-11 05:44:15

是否已棄用數據存儲區mapreduce

問題描述

2 個解決方案

解決方案1 1 2015-06-09 04:39:13

解決方案2 1 2015-06-11 05:44:15

解決方案1
1 2015-06-09 04:39:13

解決方案2
1 2015-06-11 05:44:15