请确保动态分配不会在您监视 YARN UI 时杀死您的容器。 请参阅下面的答案问题:我可以使用每个执行程序的任意数量的核心启动 SparkSession,并且 yarn 仍会报告每个容器仅分配一个核心。 我已经尝试了所有可用的在线解决方案: 这里, 这里等解决办法是: 配置yarn-site.xml ...
请确保动态分配不会在您监视 YARN UI 时杀死您的容器。 请参阅下面的答案问题:我可以使用每个执行程序的任意数量的核心启动 SparkSession,并且 yarn 仍会报告每个容器仅分配一个核心。 我已经尝试了所有可用的在线解决方案: 这里, 这里等解决办法是: 配置yarn-site.xml ...
我有一个 pyspark 工作,我通过 dataproc 提交了工作。 我想知道我的工作使用了多少数据,或者换句话说,GCP 会向我收取多少费用。 我查看了信息架构表,这些表没有显示通过 dataproc 运行的作业。 我正在寻找特定数据处理作业使用的所有资源。 假设我触发了一个 spark 作业, ...
我正在使用以下代码片段,但没有找到任何运气。 谁能帮我传递自定义工作 ID 提前致谢:) ...
我想通过拥有多种机器类型来分析每个 Dataproc 集群的实际成本,但我没有看到任何选项来获取 GCP 项目中单个 Dataproc 集群产生的成本的详细信息我们在哪里可以看到账单明细或成本产生的详细信息GCP 控制台中的每个 dataproc 集群? ...
我想在任何无服务器数据处理作业失败时发出警报。 我认为我可能需要创建一个基于日志的指标,然后基于该指标的警报策略。 我尝试使用以下过滤器创建警报策略: 我期待在失败时触发警报,但这个指标似乎并不活跃。 ...
在进行 spark-submit 时,Gcloud 提供了使用 --properties-file 传递集群属性和 spark 配置的选项。 我不确定在运行作业时如何使用它。 ...
以前有没有人执行过从本地到 Google Cloud 的迁移? 如果我使用 Dataproc,它如何处理从 Apache Hadoop 和 Spark 到 Dataproc 的实时流数据? ...
我需要使用 rest api 检索 dataproc 作业 output 文本。 只能通过云日志找到日志。 有人可以告诉我是否有可能获得通过 rest api 检索到的文本 output 文本。 如果是怎么办? ...
GCP Dataproc 为 Spark 批处理提供了无服务器(Dataproc Serverless)和临时集群(Dataproc 工作流模板)。 如果 Dataproc 无服务器可以隐藏基础架构的复杂性,我想知道通过 Dataproc 工作流使用 Dataproc 临时集群进行 Spark ...
我在 GCP DataProc 集群中运行我的 python 代码并使用spark-bigquery-with-dependencies_2.12-0.24.2.jar文件。 我正在尝试使用 python 客户端库在 BigQuery 中创建一个表,如下所示: 我收到这样的错误TypeError: ...
我使用 Dataproc 从一些 BigQuery 表中获取数据,并且我被我认为是 BigQuery 连接器的日志INFO消息所淹没。 我想关闭这些,除非我遇到错误。 例如,这就是我得到的: 它们通常来自DirectBigQueryRelation和BigQueryUtilScala两个来源。 ...
可以在 dataproc 中的 pyspark 作业的日志中多次看到错误,但该作业不会退出并继续运行多个小时。 非常感谢任何解决此问题的帮助。 运行作业的数据也非常小。 有时重新运行后,代码作业运行良好。 但它随机选择了这个问题 ...
我在谷歌云中创建了一个 dataproc 集群,在主节点中我可以看到 java 版本为 8。 我需要使用 Java 版本 11,我们该怎么做。 我们可以在现有集群中进行编辑,还是可以在创建新集群时指定它。 ...
我们现在可以使用计算引擎或GKE创建 dataproc 集群。 在 GKE 与 Compute Engine 上创建集群的主要优势是什么。 在计算引擎上创建集群时,我们多次面临insufficient resources in zone问题。 如果我们将 GKE 用于集群,它会解决这个问题吗?它们之 ...
我为 dataproc 元存储创建了一项服务(与作曲家在同一个项目中)并尝试使用它而不是我的配置单元仓库。 我可以使用 gcloud 命令成功运行它,但是当我尝试使用任何气流操作符(如 DataprocClusterCreateOperator 或 DataprocCreateClusterOper ...
我正在尝试提交一个 dataproc 作业,该作业将使用来自 Kerberized Kafka 集群的数据。 当前的工作解决方案是在执行 dataproc 作业提交命令的机器上安装 jaas 配置文件和 keytab: my_jaas_file.conf 的内容: 消费者代码: 这些文 ...
我有一个通过 Maven 项目生成的 JAR 文件,当我通过 java -jar JARFILENAME.jar 在本地运行它时工作正常。 但是,当我尝试在 Dataproc 上运行相同的 JAR 文件时,出现以下错误: 当一切在本地运行良好时,我完全不明白为什么 Dataproc 有 NoSu ...
我想获取从 Spark 上下文中运行的 Spark 作业的 jobId。 Dataproc 是否将此信息存储在 Spark 上下文中? ...
我正在尝试在提交 dataproc pyspark 作业时添加 kafka 和 mongoDB 包,但这失败了。 到目前为止,我一直只使用 kafka 包,并且工作正常,但是当我尝试在下面的命令中添加 mongoDB 包时,它给出了错误 命令工作正常,只有 Kafka 包 我尝试了几个选项来添加 ...
我想在 Serverless Dataproc 上安装一些 python 包(例如:python-json-logger)。 有没有办法进行初始化操作以在无服务器数据过程中安装 python 包? 请告诉我。 ...