我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。 我的问题是在 Spark 实例初始化期间,我收到一条错误消息。 这段代码以前对我有用过很多次,所以我猜依赖项或配置中可能发生了一些变化。 我正在使用 JDK 版本 1.8.0_192 运行,Hadoop ...
我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。 我的问题是在 Spark 实例初始化期间,我收到一条错误消息。 这段代码以前对我有用过很多次,所以我猜依赖项或配置中可能发生了一些变化。 我正在使用 JDK 版本 1.8.0_192 运行,Hadoop ...
我正在尝试创建一个带有分区的 Hive 表,但出现上述错误。 我究竟做错了什么? 该代码在没有分区子句的情况下工作。 分区期间有些东西放弃了。 ...
我知道我们可以使用Row_Number() OVER (partition by deptid ORDER BY rand() desc)类的方法在 hive 中做一些随机样本(假设我们想在某些分区中随机获取一些行数据。 但是,我不知道如何根据一列值获取一些行。 例如我们想得到一些按薪水加权的数据 ...
数据预览: 有没有办法在每个人第一次加入房间时添加一个名为“total_num_user”的列来计算房间中的用户总数? 所需的 output: 我尝试编写一个伪代码,当其他用户的开始时间 < 其他用户的开始时间和其他用户的结束时间 > 用户组的结束时间按房间计算,但坚持如何在 SQL 中 ...
在 Hive 中,我有一个如下所示的date列,字符串数组。 我有另一个 hivevar 看起来像这样set hivevar:sunny = ('2022-12-17', '2022-12-21', '2023-01-15'); 我想检查 - 对于每一行,是否有任何值是 sunny 列表的一部分。 ...
我必须制作用于将 HIVE 连接到 MYSQL 的 Kafka 源和接收器连接器。 我找不到关于上述问题的任何信息。 我也看过融合网站。 ...
我正在尝试使用直线在 test.hql 中执行查询,但我没有得到结果这里的命令: 在 test.hql 文件中: 但是如果我使用直接执行查询的参数 -e 执行命令,它会给我结果 我错过了什么吗? ...
您好,我是 Hive 和 kerberos 的新手。 我有一些 hive 的工作,这些工作的运行时间超过了票的生命周期。 我如何配置 hive 以便当我启动 hive shell 如果未缓存票证,它会自动请求票证。 获取票证后假设如果票证在中间过期然后自动获取新的票证并且我可能有同一用户同时运行的作 ...
我想在 Impala 中删除整个“索引”列(列名和值): 指数案例ID 客户ID 1个一种 xxx56 我使用了这段代码: 结果是这样的: 案例ID 客户ID 1个一种我该如何解决这个问题? ...
有谁知道按指定顺序滞后的方法吗? 在下面的示例中,我提供了一个表格,其中包含我当前的 output [Lag (Current)] 和我想要的 output [Lag (Desired)] 列。 我有兴趣根据事件时间顺序为事件时间创建延迟,需要确保组不会乱序。 问题是 CL1 组目前没有根据时间滞后 ...
我尝试通过比较_timestamp和unix_timestamp()来获取过去 3 秒内的数据,但出现错误: 编译语句时出错:失败:ParseException 行 16:15 缺少“在”附近的“>”行 17:16 缺少“在”附近的“<” _timestamp 看起来像这个“1674 ...
我定期运行的进程将数据写入镶木地板文件上的表,配置为"spark.sql.sources.partitionOverwriteMode" = "dynamic" ,代码如下: 如果该表不存在并且是在第一个子句中创建的,它可以正常工作,并且在下一次运行时表确实存在并且 else 子句运行时它按预期工作 ...
SQL 新手尝试使用 Hive 语法和 ACID 转换执行删除操作我有两个增量文件,我已将其作为 Databricks 中的数据帧引入。 表_A 和表_B 这是失败的原因: DELETE FROM Table_A WHERE Table_A.id = Table_B.id 这是我返回的错误Ana ...
我有一列包含长度为 16 的十六进制字符串。 我想将它转换为 bigint。 有什么办法可以做到这一点? 通常的方法返回 null,因为输入字符串可以表示一个大于 2^63-1 的数字。 我也尝试过使用 unhex(..), 但出现以下错误 class org.apache.hadoop.hive ...
我有一张表,需要在列中添加一个条件。 我的条件是仅排除 Age_Flag=AB 并包括所有 null 值。上述查询不包括 null 值和 Age_Flag=AB。 ...
我需要为以下用例实施解决方案。 目前应用程序正在将数据存储到 Postgres 数据库中,但 Postgres 数据库面临存储问题。 所以计划是将数据从 postgres 移动到 Hadoop,并在 hadoop 中提供近乎实时的数据。所以我们想到了以下解决方案。 编写 Kafka 生产者应用程序来 ...
如果我们有一个示例字段,说“注释”注释可能在 ( 'xyz #abc-xyz-dfg.#abd', '#123%36&89' , '## avc #1 "从 "string" 更改了 xyz #2\n - stop #3 #' ) 我正在做的是 - REGEXP_EXTRACT( reg ...
我是一个 Hadoop 新人,试图将数据从 Hive 导出到 Oracle。Sqoop 可以将数据更新到 Oracle 表吗? Oracle 表格有 A,B,C,D,E 列我将 Hive 表上的数据存储为 B,C,E Sqoop 可以使用 B,C 作为更新密钥导出更新(仅更新,而不是更新插入)并 ...
我有一个字符串字段,其中包含如下记录 “哈利·波特 (HP) (ab-cd)” “无名氏 (ab-cd)” “理查德·史密斯 (RS)” “威廉·约翰逊” 我想从所有记录中删除“(ab-cd)”部分,而不删除任何其他括号中的表达式。 结果应该是:“Harry Potter (HP)” “John ...
我有不同活动的重复 ID。 返回所有 ID,但删除重复项,并返回名为 email 的三个新列,如果活动为(电子邮件(对于 email 列)、电话(对于电话列)、约会(对于约会列),则包含 true 的电话和约会), 否则为假。 我拥有的 ID 活动 101 Email 101 约定 102 活动 ...