标签[cloudera-cdh] - 堆栈内存溢出

如何在集群模式下设置驱动程序 python 路径（pyspark） - How to set driver python path in cluster mode (pyspark)

我的程序在客户端模式下运行良好，但是当我尝试在集群模式下运行时如果失败，原因是集群节点上的 python 版本不同当我的应用程序在集群模式下运行时，我正在尝试设置 python 驱动程序路径下面是我在集群模式下的 spark 提交命令下面是错误在查看控制台日志和应用程序日志时我们没有找到错误原 ...

cloudera 沙盒 - docker 运行错误 mac m1 - cloudera sandbox - docker run error mac m1

我无法在 mac m1 上运行 docker 容器请注意我无法运行以下 docker 容器参考 https://hub.docker.com/r/cloudera/sandbox-cdh 我的系统配置 ram 16 gb sdd - 250 gb 可用空间为 150 gb 使用的命令 --> ...

在 MAC M1 上的 Docker 上部署 Hortonworks Sandbox - 安装错误 arm64 - Deploying Hortonworks Sandbox on Docker on MAC M1 - Installation error arm64

我正在尝试在 MAC M1 上设置“在 Docker 上部署 Hortonworks Sandbox” Cloudera官方安装目录 https://www.cloudera.com/tutorials/sandbox-deployment-and-install-guide/3.html 参考 ...

查询查找 Hue 上 impala/hive 中所有表的列数 - Query to find the count of columns for all tables in impala/hive on Hue

我正在尝试从相同模式的 Impala 中获取单个表/视图列表的总列数。但是我想扫描该模式中的所有表以捕获单个查询中的列？我已经从 Oracle Exadata 进行了类似的练习，但是由于我是 Impala 的新手，有没有办法捕获？ Oracle 我使用的 Exadata 查询黑斑羚 ...

如何将第三方csd很好地发送到'/opt/cloudera/csd'？ - How to send third-part csd to '/opt/cloudera/csd' nicely?

需要cm服务器密码的后端ops将csd放入cm的路径'/opt/cloudera/csd'是不好的行为。有没有办法提供 cdh 使其像分发包裹 package 一样？ ...

如何在 Cloudera Manager 数据节点 CDH 6.3.2 上正常关闭 YARN 角色 - How to do YARN role graceful shutdown on a Cloudera Manager datanode CDH 6.3.2

找不到这个问题的答案。如何优雅地停止数据节点上的 YARN 角色并等待数据节点上所有正在运行的作业以成功状态完成。我知道在 ClouderaManager 中，您可以在可以停止时停用 yarn 角色。如果我执行 YARN 角色停用运行的作业将失败，退出代码被终止或处于崩溃状态。这是在数据节点 ...

Apache 凤凰 PySpark 依赖 - Apache phoenix PySpark dependencies

我想使用 spark 连接器从 spark 查询 Phoenix 表。在 Hortonwork 环境中，我曾经做过以下工作 pyspark --jars /usr/hdp/2.6.4.0-91/phoenix/phoenix-spark2.jar,/usr/hdp/2.6.4.0-91/phoen ...

当 presto 服务器在 cloudera 6 (CDH6) 上时，为什么时间戳列值会从 presto_cli 更改？ - Why does timestamp column value changes from presto_cli when presto server is on cloudera 6 (CDH6)?

我在CDH6集群上创建了一个 orc 文件。在这个 orc 文件之上创建了 hive 表。此表也使用 presto hive 连接器从 presto 查询。 Presto 安装在同一个 CDH6 集群上。从 presto_cli v/s hive_cli 查询数据时会注意到时差。 hive ...

如何将现有的增量表注册到 hive - how to register an existing delta table to hive

我们使用 spark 读取/写入存储在 HDFS（Databricks Delta 表版本 0.5.0）中的 delta 格式的数据。我们想利用 Hive 的强大功能与增量表进行交互。我们如何从 HDFS 到 Hive 的路径以增量格式注册现有数据？请注意，目前我们正在cloudera平台（ ...

当 Hadoop YARN 容器退出/结束时如何运行一些自定义代码？ - How to run some custom code when Hadoop YARN container exits/ends?

在 Hadoop YARN 中，当捕捉到 SIGTERM 信号时，YARN 容器将退出。那么，如何检测 YARN 容器何时即将结束并运行一些自定义代码。如何将其注入 YARN 框架？我正在寻找一种解决方案，特别是针对 YARN 上的 Spark，但也是适用于其他使用 YARN 的服务的通用解 ...

Spark 2 和 Kafka 2.1 的 Spark Streaming - Spark Streaming with Spark 2 and Kafka 2.1

我正在将一个 Java 项目从 Cloudera 5.10 升级到 Cloudera 6.2。我们有 Spark Streaming 从 Kafka 读取数据来处理它并将结果写入其他地方。在升级期间，Spark 从 v1.6 升级到 v2.1，Kafka 从 v0.8 升级到 v2.1。为了 ...

cloudera - 如何为不同的用户分配资源 - cloudera - how to allocate resources for different users

我正在使用 cloudera 6.3 并尝试实现以下目标。所有运行交互式查询的用户不应获得超过 20% 的资源用于通过 Imapala 获取数据的功能 ID 不应获得 30% 的资源用于 ETL 的功能性 is 应该获得至少 70% 的资源，但是如果需要，应该从以上两个中获取资源。我需要做什么？ ...

Hive-site.xml 中缺少 Hive 元存储数据库详细信息 - Hive metastore database details missing in hive-site.xml

我们正在使用 CDH 5.4.6。我能够在 Cloudera UI 中找到 Hive Metastore 详细信息。但我试图在配置文件上找到相同的细节。我只能在/etc/hive/conf/hive-site.xml中找到hive.metastore.uris参数。 conf 文件 hive ...

我目前正在研究CDH5.13 (Cloudera Distribution Hadoop) ，我有几个问题： 1- 我想获得最新版本的 CDH(6.3.3)。当我尝试下载它时，我收到此消息（您的 MyCloudera 帐户当前未连接 CDH 订阅，这是 CDH 6.3.3 及更高版本所需的。） ...

HBase logcleaner 不会删除 oldWALs 文件 - HBase logcleaner does not delete the oldWALs files

在我的实验室中，HBase 存档预写日志，即 oldWALs 文件没有被删除，oldWALs 目录以 TB 为单位快速增长。尝试以下选项进行清理；但没有运气。更新的复制在 hbase master 上是错误的并重新启动将 ttl 减少到 1 秒没有同行多次重新启动 HBase 组件。 ...

错误找不到键 log4j.appender.RFA 的值 - ERROR Could not find value for key log4j.appender.RFA

I installed Cloudera Quickstart VM 5.13 on virtualbox and I'm trying to start hadoop server with the command sudo service hadoop-hdfs-namenode start ...

pyspark hiveContext 错误，同时执行 spark-submit 应用程序到纱线和远程 CDH kerberized env - pyspark hiveContext error while executing spark-submit application to yarn and remote CDH kerberized env

执行时发生错误来自 airflow docker 容器不在 CDH 环境中（不由 CDH CM 管理）。 sranje.py 是简单的 select * 来自 hive 表。应用程序在 CDH 纱线上被接受并执行两次，但出现以下错误：我们假设缺少“some.jar 和 java 依赖项”。 ...

CDH 5.10.0 中的主目录 - Home directory in CDH 5.10.0

我正在运行 CDH 5.10.0 虚拟机当我在终端中使用 gedit 创建.sql 文件时，进入 /home/cloudera，我可以看到 sql 文件正在 Desktop- Desktop-> Cloudera's Home中创建。但是当我使用hadoop fs -ls /home/clo ...

还有其他使用 Hue 的方法----不是必须添加与 Hue 用户名相同的 Linux 用户名吗？ - Are there other ways to use Hue----not a must need to add a Linux username as the same as Hue username?

Sentry使用CDH 6.3.x-Hue控制我impala数据的访问权限时，发现hue用户名必须是Linux用户名！不优雅，那我应该怎么做才能避免创建Linux用户名？使用直接按用户名显示色相？ ...

为什么使用 integer 类型作为分区键可以最大限度地减少 memory 的使用？ - Why using integer type for partition key can minimize memory usage?

为分区键列使用最小的合适的 integer 类型。虽然分区键列使用字符串很诱人，但由于这些值无论如何都会变成 HDFS 目录名，您可以通过对常见分区键字段（例如 YEAR）使用数值来最大限度地减少 memory 的使用、月份和日期。使用包含适当值范围的最小 integer 类型，通常 TINYI ...