我在 Cloudera 数据平台 (CDP) 中使用机器学习工作区。 我用 4vCPU/16 GiB Memory 创建了一个 session 并启用了 Spark 3.2.0。 我正在使用 spark 加载一个月的数据(整个月的数据大小约为 12 GB)并进行一些转换,然后将数据作为 parque ...
我在 Cloudera 数据平台 (CDP) 中使用机器学习工作区。 我用 4vCPU/16 GiB Memory 创建了一个 session 并启用了 Spark 3.2.0。 我正在使用 spark 加载一个月的数据(整个月的数据大小约为 12 GB)并进行一些转换,然后将数据作为 parque ...
我们已经完成了从 Hive 到 ADLS 的数据二进制副本,并验证了校验和。 虽然每个数据类型的值都匹配,但时间戳数据类型列显示 Hive 和 Delta(Azure Databricks) 表之间的值变化。 虽然校验和和所有验证确实匹配,但是在“T”之后添加的一些值引起了关注。 任何建议都会有所帮 ...
我想从我之前上传到服务器的 a.csv 文件创建一个外部表。 在 Bline(Hive 的 shell)中,我尝试运行这个脚本: 它创建了没有任何错误的表,因为表本身是空的。 帮助将不胜感激。 我的文本文件中填充了数据。 ...
我正在尝试通过 Cloudera 上的 Apache Hive 将我在 conda 环境中运行的 jupyter notebook 连接到 Hadoop 集群。 我从这篇文章中了解到我应该安装/设置 cloudera odbc 驱动程序并使用 pydobc 并使用如下连接:我的问题是关于自动提交参数 ...
在测试 ODBC 与 HIVE 的连接期间,我遇到了 MIT Kerberos 错误 你如何解决这个问题? 我做了这些步骤: 我重新安装 kfw-4.1-amd64.msi,版本 4.1(64 位,适用于 Windows) 我重新安装 ClouderaHiveODBC64.msi,版本 2.5.2 ...
我们正在使用 hive 3.1.3,我们正在 Cloudera 平台上的 Tez 引擎(Tez 上的 Hive)上运行查询。 我们仍处于开始阶段,我们有一种情况,我们想要使用字符串列将多个表连接在一起。 例如表格1 表 2 我们希望使用 table1.id = table2.id 连接表 1 和 ...
我们正在将 HDFS 数据从HDP 非安全集群迁移到CDP 安全集群,当我阅读 Cloudera 文档时,他们提到“distcp”作为处理迁移的工具,但他们也只提到来自HDP 安全集群到CDP 安全/非安全集群,这不是我的情况。 我有几个问题: 我应该先保护现有集群然后使用 distcp 吗? 或者 ...
我正在尝试在 cloudera 数据科学工作台中安装 dataPreparation package。 目前已安装 R 4.0.5 版本。 以下命令 引发以下错误: 我点击了链接: https://cran.r-project.org/doc/manuals/r-patched/R-admin. ...
我对 Hive 和 Impala 非常陌生。 我试图在 IMPALA 中运行一个已经存在的表,但出现以下错误。 AnalysisException: Table dev_test.customer not supported. Transactional (ACID) tables are onl ...
当我尝试执行下面的查询 (CREATE) 时出现此错误。 有什么建议吗? 错误: - - - - - - - - - - - - - - - - - - - - - - - - ------------------------- 询问: - - ...
我正在使用 Mac M1使用 docker 容器运行我的 Hadoop 集群。 在下面显示的图像中,我的容器中有 docker 容器,其中运行 Cloudera VM。 我一直在尝试通过 FileZilla 连接到 Cloudera 实例。 我无法连接到 eth0 IP 地址,所以我想启用 eth ...
在尝试从 DBeaver 连接到 Cloudera Impala 之前,有没有人看到此错误消息? 我在创建数据库连接时得到了这个。 我在此错误消息中找不到任何内容。 ...
我们知道使用内部表的以下优势; 内部表提供合并功能(更新单列) 查询优化和查询缓存 使用内部表有什么缺点吗? ...
我正在尝试让 Cloudera Impala ODBC 在全新的M1 Mac上运行。 为此,我通过官方 MS 文档安装了 MS ODBC 18 并遵循Cloudera ODBC 连接器安装指南。 但是,在尝试连接时,出现以下错误: 我的 ODBC 安装: odbcinst.ini odbc.in ...
我需要对其中一个字段(来自上述数据的值列)进行累积总和,并按月对其进行分组。 这是我的数据的样子: 我需要 output 如下: 我在 Impala 中这样做,我尝试了几件事,但没有奏效。 谢谢您的帮助! ...
我一直在 CDSW session 中使用以下 python 3 脚本,只要 session 没有被杀死,它就可以正常运行。 我可以点击右上角的网格和 select 我的应用程序 hello.py 我希望这个应用程序全天候运行 24/7,所以我不想使用 Session 或安排永不结束的工作,而是想创 ...
我们有一个运行在 AWS EC2 实例 (Amazon Linux) 上的 Python 3.7 应用程序,它使用 pyodbc (4.0.27) 和 Cloudera Impala ODBC 驱动程序(使用 ClouderaImpalaODBC-2.6.5.rpm 安装)对 Cloudera I ...
我们正在尝试将 unicode 数据从 Cloudera Impala 拉入 SQL 服务器。 我们已经完成了以下步骤: 我们已经安装了 Cloudera Impala ODBC 驱动程序并配置了 DSN。 我们在 DSN 设置中启用了“SQL Unicode 类型”。 我们在 SQL Serve ...
需要cm服务器密码的后端ops将csd放入cm的路径'/opt/cloudera/csd'是不好的行为。 有没有办法提供 cdh 使其像分发包裹 package 一样? ...
我想用 max+1 id 值向 service_log 表中插入一行。 但这给了我以下错误; 我怎么解决这个问题? ...