我的程序在客户端模式下运行良好,但是当我尝试在集群模式下运行时如果失败,原因是集群节点上的 python 版本不同当我的应用程序在集群模式下运行时,我正在尝试设置 python 驱动程序路径下面是我在集群模式下的 spark 提交命令 下面是错误 在查看控制台日志和应用程序日志时我们没有找到错误原 ...
我的程序在客户端模式下运行良好,但是当我尝试在集群模式下运行时如果失败,原因是集群节点上的 python 版本不同当我的应用程序在集群模式下运行时,我正在尝试设置 python 驱动程序路径下面是我在集群模式下的 spark 提交命令 下面是错误 在查看控制台日志和应用程序日志时我们没有找到错误原 ...
我无法在 mac m1 上运行 docker 容器请注意我无法运行以下 docker 容器参考 https://hub.docker.com/r/cloudera/sandbox-cdh 我的系统配置 ram 16 gb sdd - 250 gb 可用空间为 150 gb 使用的命令 --> ...
我正在尝试在 MAC M1 上设置“在 Docker 上部署 Hortonworks Sandbox” Cloudera官方安装目录 https://www.cloudera.com/tutorials/sandbox-deployment-and-install-guide/3.html 参考 ...
我正在尝试从相同模式的 Impala 中获取单个表/视图列表的总列数。 但是我想扫描该模式中的所有表以捕获单个查询中的列? 我已经从 Oracle Exadata 进行了类似的练习,但是由于我是 Impala 的新手,有没有办法捕获? Oracle 我使用的 Exadata 查询 黑斑羚 ...
需要cm服务器密码的后端ops将csd放入cm的路径'/opt/cloudera/csd'是不好的行为。 有没有办法提供 cdh 使其像分发包裹 package 一样? ...
找不到这个问题的答案。 如何优雅地停止数据节点上的 YARN 角色并等待数据节点上所有正在运行的作业以成功状态完成。 我知道在 ClouderaManager 中,您可以在可以停止时停用 yarn 角色。 如果我执行 YARN 角色停用运行的作业将失败,退出代码被终止或处于崩溃状态。 这是在数据节点 ...
我想使用 spark 连接器从 spark 查询 Phoenix 表。 在 Hortonwork 环境中,我曾经做过以下工作 pyspark --jars /usr/hdp/2.6.4.0-91/phoenix/phoenix-spark2.jar,/usr/hdp/2.6.4.0-91/phoen ...
我在CDH6集群上创建了一个 orc 文件。 在这个 orc 文件之上创建了 hive 表。 此表也使用 presto hive 连接器从 presto 查询。 Presto 安装在同一个 CDH6 集群上。 从 presto_cli v/s hive_cli 查询数据时会注意到时差。 hive ...
我们使用 spark 读取/写入存储在 HDFS(Databricks Delta 表版本 0.5.0)中的 delta 格式的数据。 我们想利用 Hive 的强大功能与增量表进行交互。 我们如何从 HDFS 到 Hive 的路径以增量格式注册现有数据? 请注意,目前我们正在cloudera平台( ...
在 Hadoop YARN 中,当捕捉到 SIGTERM 信号时,YARN 容器将退出。 那么,如何检测 YARN 容器何时即将结束并运行一些自定义代码。 如何将其注入 YARN 框架? 我正在寻找一种解决方案,特别是针对 YARN 上的 Spark,但也是适用于其他使用 YARN 的服务的通用解 ...
我正在将一个 Java 项目从 Cloudera 5.10 升级到 Cloudera 6.2。 我们有 Spark Streaming 从 Kafka 读取数据来处理它并将结果写入其他地方。 在升级期间,Spark 从 v1.6 升级到 v2.1,Kafka 从 v0.8 升级到 v2.1。 为了 ...
我正在使用 cloudera 6.3 并尝试实现以下目标。 所有运行交互式查询的用户不应获得超过 20% 的资源用于通过 Imapala 获取数据的功能 ID 不应获得 30% 的资源用于 ETL 的功能性 is 应该获得至少 70% 的资源,但是如果需要,应该从以上两个中获取资源。 我需要做什么? ...
我们正在使用 CDH 5.4.6。 我能够在 Cloudera UI 中找到 Hive Metastore 详细信息。 但我试图在配置文件上找到相同的细节。 我只能在/etc/hive/conf/hive-site.xml中找到hive.metastore.uris参数。 conf 文件 hive ...
我目前正在研究CDH5.13 (Cloudera Distribution Hadoop) ,我有几个问题: 1- 我想获得最新版本的 CDH(6.3.3)。 当我尝试下载它时,我收到此消息(您的 MyCloudera 帐户当前未连接 CDH 订阅,这是 CDH 6.3.3 及更高版本所需的。) ...
在我的实验室中,HBase 存档预写日志,即 oldWALs 文件没有被删除,oldWALs 目录以 TB 为单位快速增长。 尝试以下选项进行清理; 但没有运气。 更新的复制在 hbase master 上是错误的并重新启动将 ttl 减少到 1 秒没有同行多次重新启动 HBase 组件。 ...
I installed Cloudera Quickstart VM 5.13 on virtualbox and I'm trying to start hadoop server with the command sudo service hadoop-hdfs-namenode start ...
执行时发生错误 来自 airflow docker 容器不在 CDH 环境中(不由 CDH CM 管理)。 sranje.py 是简单的 select * 来自 hive 表。 应用程序在 CDH 纱线上被接受并执行两次,但出现以下错误: 我们假设缺少“some.jar 和 java 依赖项”。 ...
我正在运行 CDH 5.10.0 虚拟机当我在终端中使用 gedit 创建.sql 文件时,进入 /home/cloudera,我可以看到 sql 文件正在 Desktop- Desktop-> Cloudera's Home中创建。 但是当我使用hadoop fs -ls /home/clo ...
Sentry使用CDH 6.3.x-Hue控制我impala数据的访问权限时,发现hue用户名必须是Linux用户名! 不优雅,那我应该怎么做才能避免创建Linux用户名? 使用直接按用户名显示色相? ...
为分区键列使用最小的合适的 integer 类型。虽然分区键列使用字符串很诱人,但由于这些值无论如何都会变成 HDFS 目录名,您可以通过对常见分区键字段(例如 YEAR)使用数值来最大限度地减少 memory 的使用、月份和日期。 使用包含适当值范围的最小 integer 类型,通常 TINYI ...