[英]is datastore mapreduce deprecated
我剛剛安裝了Google Cloud platform
以進行免費試用。 為了使用DataStore
運行MapReduce
任務, 文檔說要運行
./bdutil --upload_files "samples/*" run_command ./test-mr-datastore.sh
但是我無法在本地獲取此文件,並且這樣做有充分的理由,這種運行MapReduce
作業的方法似乎已被棄用,請參見github上的內容 。 確實如此,是否有另一種方法可以從本地命令行創建MapReduce任務而不需要BigQuery
?
注意 :Google團隊隨后從bdutil
(2015-05-27)中刪除了DataStore連接器 ,因此您可能需要使用舊版本或使用GCS或BigQuery作為代理來訪問DataStore中的數據。
我會盡我所能,但是bdutil
需要更多細節,很難在此答案中進行記錄,但是我希望這能給您足夠的起點:
設置Google Cloud SDK- 詳細信息
# Download SDK curl https://sdk.cloud.google.com | bash # Restart your shell exec -l $SHELL # Authenticate to GCP gcloud auth login # Select Project gcloud config set project PROJECT_NAME
下載並解壓縮包含DataStore連接器的bdutil源代碼。
# Download source which contains DataStore connector wget https://github.com/GoogleCloudPlatform/bdutil/archive/1.2.1.tar.gz -O bdutil.tar.gz # Extract source tar -xvzf bdutil.tar.gz cd bdutil-*/
創建bdutil定制環境變量文件。 請參考bdutil配置文檔以獲取正確的配置文件,因為您需要指定項目,服務器數量,GCS存儲桶,計算機類型等。
使用datastore_env.sh
部署Hadoop實例( 完整文檔 )
./bdutil deploy -e YOUR_ENV_FILE.sh,datastore_env.sh
連接到Hadoop Master節點
./bdutil shell
現在,在主節點中,您可以運行MapReduce作業,該作業也將有權訪問DataStore。
拒絕您的Hadoop集群
./bdutil delete
確實不推薦使用數據存儲區連接器連接器。
對於您的問題“是否存在從本地命令行創建MapReduce任務的另一種方法”,一種選擇是使用Google Cloud Dataflow 。 它本身不是MapReduce,而是並行數據處理的編程模型,已在Google取代了MapReduce。 Dataflow SDK包括對數據存儲訪問的支持 。
與Hadoop不同,您不必設置集群。 您只需編寫代碼(使用Dataflow SDK)並從CLI提交作業。 數據存儲服務將即時創建所需的工作人員來處理您的工作,然后終止他們。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.