標簽[google-cloud-dataproc] - 堆棧內存溢出

[英]Dataproc CPU usage too low even though all the cores got used

問題：我運行的 spark 作業用盡了所有節點上的所有內核，但在 Dataproc CPU 監控圖中，CPU 使用率最高達到 12% 我有一個包含 2 個節點的虛擬集群。每個節點都有： 16 GiB memory 16芯我使用以下配置啟動 spark session 並運行以下簡單代碼：而且 ...

Yarn 只為每個容器分配 1 個核心。在紗線上奔跑的火花

[英]Yarn allocates only 1 core per container. Running spark on yarn

請確保動態分配不會在您監視 YARN UI 時殺死您的容器。請參閱下面的答案問題：我可以使用每個執行程序的任意數量的核心啟動 SparkSession，並且 yarn 仍會報告每個容器僅分配一個核心。我已經嘗試了所有可用的在線解決方案：這里，這里等解決辦法是：配置yarn-site.xml ...

Dataproc 中的 nltk.download('wor.net')

[英]nltk.download('wordnet') in Dataproc

當我在 Dataproc 中運行以下腳本時 nltk_data 僅在主節點中下載，而不會在工作節點中下載。因此在 dataproc 中提交 PySpark 作業時無法從工作節點讀取。你有什么建議？如何也可以在工作節點中下載 nltk_data？ ...

GKE 上的 Dataproc：python 屬性中列出的軟件包未安裝

[英]Dataproc on GKE: python packages listed in properties not installed

我在 GKE 集群上創建了一個 dataproc 集群。所需的包已包含在屬性中，例如此處的示例。但是當我提交作業時，它失敗並出現錯誤：ModuleNotFoundError。這是我使用的 gcloud 命令： ...

GCP Dataproc 版本控制

[英]GCP Dataproc version control

我們在 Dataproc 和本地計算機之間交替使用 jupyter 筆記本。通常，我們在本地較小的樣本上編寫和測試代碼，然后在 Dataproc 中的所有數據上運行它。然而，我們目前的做法是在 Google Cloud Storage 和本地計算機之間下載/上傳筆記本，出於多種原因，這並不是最佳 ...

function雲中dataproc作業狀態如何觸發事件監控？

[英]How to trigger an event to monitor dataproc job status in cloud function?

我正在尋找一些方法來實時跟蹤來自谷歌雲 function 的 dataproc spark 作業狀態。我不知道有任何谷歌雲服務可以適應這種情況，類似於 AWS lambda EventBridge (CloudWatch Events)，其中 lambda 在粘合作業 state 發生變化時被觸 ...

如何使用 dataproc 客戶端通過 google dataproc 集群作業為 spark 傳遞自定義作業 ID

[英]how to pass custom job id via google dataproc cluster job for spark using dataproc client

我正在使用以下代碼片段，但沒有找到任何運氣。誰能幫我傳遞自定義工作 ID 提前致謝：） ...

如何使用 python 從 Azure app vault 獲取數據庫密碼？我在 google Dataproc 集群上運行這個 python 文件

[英]How to get DB password from Azure app vault using python ? I am running this python file on google Dataproc cluster

我的 Sql 服務器數據庫密碼保存在 Azure 應用程序庫中，該庫以 DATAREF ID 作為標識符。我需要該密碼才能從 SQL 服務器中存在的表創建 spark dataframe。我在 google Dataproc 集群上運行 this.py 文件。如何使用 python 獲取該密碼 ...

Googld cloud dataproc serverless (batch) pyspark 從谷歌雲存儲 (GCS) 讀取鑲木地板文件非常慢

[英]Googld cloud dataproc serverless (batch) pyspark reads parquet file from google cloud storage (GCS) very slow

我在 Google Cloud Storage (GCS) 上有一個 wiki 語料庫的反頻鑲木地板文件。我想將它從 GCS 加載到 dataproc 無服務器（批處理）。但是，在 dataproc 批處理上使用pyspark.read加載鑲木地板的時間比我本地的 MacBook（16GB RA ...

如何使用 spark-java 從 GCS 讀取 csv 文件？

[英]How to read csv file from GCS using spark-java?

我正在嘗試使用 spark 讀取存儲在 GCS 中的 csv 文件，我有一個簡單的 spark java 項目，它除了讀取 csv 之外什么都不做。其中使用了以下代碼。但它會拋出一個錯誤：任何人都可以幫助我嗎？我只想使用 spark 從 GCS 讀取 csv。提前致謝：） ...

使用屬性文件向 Google Dataproc 提交 Pig 作業時出錯

[英]Error in submitting a pig job to Google Dataproc with properties file

我是 Dataproc 的新手，正在嘗試通過 gcloud 向 google dataproc 提交一份 Pig 作業具有以下屬性文件下面是上傳到 GCS 的 pig 腳本示例低於錯誤也嘗試了大多數使用控制台的方法，但沒有得到好的文檔。查詢參數字段（指定要插入的參數名稱和值以代替查詢文件中 ...

如何在 Airflow 集群創建操作符中指定搶占式 SPOT VM

[英]How to specify pre-emptible SPOT VMs in Airflow cluster creation operator

通過 GCP 控制台或 GCP API 創建集群提供了一個選項來指定輔助工作者[SPOT, pre-emptible or non-preemptible] 。但是，在通過 AirFlow 操作員創建集群時，無法找到相應的 CLUSTER_CONFIG 來使用。默認情況下，輔助工作程序是可搶占 ...

Pyspark 監控指標沒有意義

[英]Pyspark monitoring metrics not making sense

我試圖在使用 pyspark 時了解 spark ui 和 hdfs ui。以下是我正在運行的 Session 的屬性我運行了一個簡單的代碼來讀取 memory 中的文件（磁盤上約 9 GB）兩次。並且，然后合並這兩個文件並保留結果並運行計數操作。我預計：數據先持久化到Memory再到磁盤 ...

從 xcom 將動態參數傳遞給 DataprocSubmitJobOperator

[英]Pass dynamic args to DataprocSubmitJobOperator from xcom

我正在嘗試從 pub/sub 接收一個事件，根據消息，它應該將一些 arguments 傳遞給我的 dataproc spark 作業。現在下面代碼中的 job_args 是字典。我已經設法將 job_args 作為字典從 python 可調用的 create_args_from_event ...

如何在 airflow DAG 中的 secondary_worker_config 中創建 SPOT VM 以使用谷歌雲數據處理運營商？

[英]How to create SPOT VM's in my secondary_worker_config in airflow DAG for using google cloud dataproc operators?

在 UI 中，您可以 select Preemptibility as Spot in the Secondary worker nodes 來創建類似的東西：以下是我的 JSON： SPOT VM 的鍵值對是什么？我試圖查看以下文件，但沒有找到任何內容： https://airflow ...

在雲 Dataproc 中的 Pyspark 作業上使用 DeltaTable.forPath 時出錯

[英]Error Using DeltaTable.forPath on Pyspark Job in cloud Dataproc

我正在 Dataproc 集群上執行一些 pyspark 作業。直到昨天一切都很順利。但是，今天我在使用命令 DeltaTable.forPath(sparkSession, path) 讀取增量表並更新它時開始出現此錯誤。配置：dataproc 集群映像：2.0-debian10 增量表版本 ...

Apache Hudi 創建和 append Dataproc 和 Cloud Storage 上的 Upsert 表（Parquet 格式）

[英]Apache Hudi create and append Upsert table (Parquet-format) on Dataproc & Cloud Storage

又是 Dataproc-noob。我的主要目標是從本地源提取表，將它們作為 Parquet 文件存儲在 Cloud Storage 存儲桶中，並根據我之前關於 Dataproc 和 Hudi conf 的帖子在 BigQuery 中創建/更新表，我能夠通過 Dataproc/PySpark/Hu ...

使用 Spark 讀取 CSV 文件有時會永遠運行

[英]Reading CSV file with Spark runs sometimes forever

我將Spark 2.4.8與來自com.google.cloud.bigdataoss版本hadoop2-2.1.8的gcs-connector一起使用。為了進行開發，我在我的 IDE 中使用了 Compute Engine VM。我嘗試使用 Spark .csv(...).load(...)功 ...

Apache Hudi on Dataproc

[英]Apache Hudi on Dataproc

是否有在 Dataproc 集群上部署 Apache Hudi 的指南？我正在嘗試通過Hudi 快速入門指南進行部署，但我不能。火花 3.1.1 Python 3.8.13 Debian 5.10.127 x86_64 啟動代碼：嘗試：錯誤：編輯 1：拋出配置錯誤警告 org.ap ...

減少 Dataproc Serverless CPU 配額

[英]Reducing Dataproc Serverless CPU quota

目標：我想在 Dataproc Serverless for Spark 上運行 spark 作業。問題：Spark 應用程序的最低 CPU 內核要求是 12 個內核。這不符合我們擁有的默認區域 CPU 配額，需要我們對其進行擴展。 12 核對我們來說太過分了；我們不想擴大配額。詳細信息： ...