标签[dataproc] - 堆栈内存溢出

Yarn 只为每个容器分配 1 个核心。在纱线上奔跑的火花 - Yarn allocates only 1 core per container. Running spark on yarn

请确保动态分配不会在您监视 YARN UI 时杀死您的容器。请参阅下面的答案问题：我可以使用每个执行程序的任意数量的核心启动 SparkSession，并且 yarn 仍会报告每个容器仅分配一个核心。我已经尝试了所有可用的在线解决方案：这里，这里等解决办法是：配置yarn-site.xml ...

Dataproc pyspark 计费作业总字节数 - Dataproc pyspark job total bytes billed

我有一个 pyspark 工作，我通过 dataproc 提交了工作。我想知道我的工作使用了多少数据，或者换句话说，GCP 会向我收取多少费用。我查看了信息架构表，这些表没有显示通过 dataproc 运行的作业。我正在寻找特定数据处理作业使用的所有资源。假设我触发了一个 spark 作业， ...

如何使用 dataproc 客户端通过 google dataproc 集群作业为 spark 传递自定义作业 ID - how to pass custom job id via google dataproc cluster job for spark using dataproc client

我正在使用以下代码片段，但没有找到任何运气。谁能帮我传递自定义工作 ID 提前致谢：） ...

我们在哪里可以看到 GCP 控制台中每个 dataproc 集群的账单明细或产生的费用明细 - Where can we see the billing details or cost incurred details for each dataproc cluster in GCP console

我想通过拥有多种机器类型来分析每个 Dataproc 集群的实际成本，但我没有看到任何选项来获取 GCP 项目中单个 Dataproc 集群产生的成本的详细信息我们在哪里可以看到账单明细或成本产生的详细信息GCP 控制台中的每个 dataproc 集群？ ...

如何为失败的 Dataproc Batch 配置警报策略？ - How to configure an alerting policy for failed Dataproc Batch?

我想在任何无服务器数据处理作业失败时发出警报。我认为我可能需要创建一个基于日志的指标，然后基于该指标的警报策略。我尝试使用以下过滤器创建警报策略：我期待在失败时触发警报，但这个指标似乎并不活跃。 ...

如何在 dataproc 中使用 --properties-file 标志？ - How to use --properties-file flag in dataproc?

在进行 spark-submit 时，Gcloud 提供了使用 --properties-file 传递集群属性和 spark 配置的选项。我不确定在运行作业时如何使用它。 ...

如果我使用 Dataproc，它如何处理从 Apache Hadoop 和 Spark 到 Dataproc 的实时流数据？ - If I use Dataproc, how does it process real-time streaming data from Apache Hadoop and Spark to Dataproc?

以前有没有人执行过从本地到 Google Cloud 的迁移？如果我使用 Dataproc，它如何处理从 Apache Hadoop 和 Spark 到 Dataproc 的实时流数据？ ...

使用 rest api 从 dataproc 获取控制台作业 output 文本 - Get console job output text from dataproc using rest api

我需要使用 rest api 检索 dataproc 作业 output 文本。只能通过云日志找到日志。有人可以告诉我是否有可能获得通过 rest api 检索到的文本 output 文本。如果是怎么办？ ...

用于批处理的 Dataproc Workflow（临时集群）或 Dataproc Serverless？ - Dataproc Workflow(ephemeral cluster) or Dataproc Serverless for batch processing?

GCP Dataproc 为 Spark 批处理提供了无服务器（Dataproc Serverless）和临时集群（Dataproc 工作流模板）。如果 Dataproc 无服务器可以隐藏基础架构的复杂性，我想知道通过 Dataproc 工作流使用 Dataproc 临时集群进行 Spark ...

使用 python 在 Big Query 架构中设置 BIGNUMERIC 数据类型的精度和比例时出错 - ERROR when setting precision and scale for BIGNUMERIC data type in Big Query schema using python

我在 GCP DataProc 集群中运行我的 python 代码并使用spark-bigquery-with-dependencies_2.12-0.24.2.jar文件。我正在尝试使用 python 客户端库在 BigQuery 中创建一个表，如下所示：我收到这样的错误TypeError: ...

使用 PySpark 时抑制来自 BigQuery 的信息日志 - Suppressing Info logs from BigQuery when using PySpark

我使用 Dataproc 从一些 BigQuery 表中获取数据，并且我被我认为是 BigQuery 连接器的日志INFO消息所淹没。我想关闭这些，除非我遇到错误。例如，这就是我得到的：它们通常来自DirectBigQueryRelation和BigQueryUtilScala两个来源。 ...

即使日志有错误，Dataproc Pyspark 作业也不会退出的问题 - Issue with Dataproc Pyspark job not exiting even though logs have errors

可以在 dataproc 中的 pyspark 作业的日志中多次看到错误，但该作业不会退出并继续运行多个小时。非常感谢任何解决此问题的帮助。运行作业的数据也非常小。有时重新运行后，代码作业运行良好。但它随机选择了这个问题 ...

在 dataproc 的主节点中更改 java 版本 - Change java version in master node of dataproc

我在谷歌云中创建了一个 dataproc 集群，在主节点中我可以看到 java 版本为 8。我需要使用 Java 版本 11，我们该怎么做。我们可以在现有集群中进行编辑，还是可以在创建新集群时指定它。 ...

GKE 上的 dataproc 集群与计算引擎有什么区别？ - what's difference between dataproc cluster on GKE vs Compute engine?

我们现在可以使用计算引擎或GKE创建 dataproc 集群。在 GKE 与 Compute Engine 上创建集群的主要优势是什么。在计算引擎上创建集群时，我们多次面临insufficient resources in zone问题。如果我们将 GKE 用于集群，它会解决这个问题吗？它们之 ...

使用气流运算符创建数据过程时无法连接到 dpms - Couldn't connect to dpms while creating dataproc using airflow operator

我为 dataproc 元存储创建了一项服务（与作曲家在同一个项目中）并尝试使用它而不是我的配置单元仓库。我可以使用 gcloud 命令成功运行它，但是当我尝试使用任何气流操作符（如 DataprocClusterCreateOperator 或 DataprocCreateClusterOper ...

google dataproc 作业使用本地 keyTab / ticketCache 文件提交 - google dataproc jobs submit with local keyTab / ticketCache file

我正在尝试提交一个 dataproc 作业，该作业将使用来自 Kerberized Kafka 集群的数据。当前的工作解决方案是在执行 dataproc 作业提交命令的机器上安装 jaas 配置文件和 keytab： my_jaas_file.conf 的内容：消费者代码：这些文 ...

数据处理； Spark 作业在 Dataproc Spark 集群上失败，但在本地运行 - Dataproc; Spark job fails on Dataproc Spark cluster, but runs locally

我有一个通过 Maven 项目生成的 JAR 文件，当我通过 java -jar JARFILENAME.jar 在本地运行它时工作正常。但是，当我尝试在 Dataproc 上运行相同的 JAR 文件时，出现以下错误：当一切在本地运行良好时，我完全不明白为什么 Dataproc 有 NoSu ...

如何从 Spark 作业中检索通过 Dataproc 提交的作业的 jobId - How to retrieve the jobId of job submitted via Dataproc from within the Spark job

我想获取从 Spark 上下文中运行的 Spark 作业的 jobId。 Dataproc 是否将此信息存储在 Spark 上下文中？ ...

GCP Dataproc - 在提交作业时添加多个包（kafka，mongodb）不起作用 - GCP Dataproc - adding multiple packages(kafka, mongodb) while submitting jobs not working

我正在尝试在提交 dataproc pyspark 作业时添加 kafka 和 mongoDB 包，但这失败了。到目前为止，我一直只使用 kafka 包，并且工作正常，但是当我尝试在下面的命令中添加 mongoDB 包时，它给出了错误命令工作正常，只有 Kafka 包我尝试了几个选项来添加 ...

在 Serverless Dataproc GCP 中安装 python 包 - Installing python packages in Serverless Dataproc GCP

我想在 Serverless Dataproc 上安装一些 python 包（例如：python-json-logger）。有没有办法进行初始化操作以在无服务器数据过程中安装 python 包？请告诉我。 ...