标签[hive] - 堆栈内存溢出

无法识别的 Hadoop 主要版本号 - Unrecognized Hadoop major version number

我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。我的问题是在 Spark 实例初始化期间，我收到一条错误消息。这段代码以前对我有用过很多次，所以我猜依赖项或配置中可能发生了一些变化。我正在使用 JDK 版本 1.8.0_192 运行，Hadoop ...

Presto Hive SQL 错误：输入“PARTITIONED”不匹配。期待：“评论”，“与”，<eof></eof> - Presto Hive SQL Error: mismatched input 'PARTITIONED'. Expecting: 'COMMENT', 'WITH', <EOF>

我正在尝试创建一个带有分区的 Hive 表，但出现上述错误。我究竟做错了什么？该代码在没有分区子句的情况下工作。分区期间有些东西放弃了。 ...

如何获取Hive SQL中的加权样本数据？ - How to get weighted sample data in Hive SQL?

我知道我们可以使用Row_Number() OVER (partition by deptid ORDER BY rand() desc)类的方法在 hive 中做一些随机样本（假设我们想在某些分区中随机获取一些行数据。但是，我不知道如何根据一列值获取一些行。例如我们想得到一些按薪水加权的数据 ...

SQL/Hive：当用户首次加入房间时查找房间中的用户总数 - SQL/Hive: Finding total number of users in a room when a user first joins a room

数据预览：有没有办法在每个人第一次加入房间时添加一个名为“total_num_user”的列来计算房间中的用户总数？所需的 output：我尝试编写一个伪代码，当其他用户的开始时间 < 其他用户的开始时间和其他用户的结束时间 > 用户组的结束时间按房间计算，但坚持如何在 SQL 中 ...

Hive，如何比较字符串数组和hivevar列表？ - In Hive, how to compare array of string with hivevar list?

在 Hive 中，我有一个如下所示的date列，字符串数组。我有另一个 hivevar 看起来像这样set hivevar:sunny = ('2022-12-17', '2022-12-21', '2023-01-15'); 我想检查 - 对于每一行，是否有任何值是 sunny 列表的一部分。 ...

如何使用 kafka 连接器（即源和接收器）将 hive 连接到 mysql？ - How to connect hive to mysql using kafka connectors(i.e. source and sink)?

我必须制作用于将 HIVE 连接到 MYSQL 的 Kafka 源和接收器连接器。我找不到关于上述问题的任何信息。我也看过融合网站。 ...

用beeline命令执行HQL文件 - Execute HQL file with beeline command

我正在尝试使用直线在 test.hql 中执行查询，但我没有得到结果这里的命令：在 test.hql 文件中：但是如果我使用直接执行查询的参数 -e 执行命令，它会给我结果我错过了什么吗？ ...

如何配置Hive Cli自动获取kerberos ticket并自行更新/请求新的如果过期 - How to configure Hive Cli to automatically get the kerberos ticket and renew/request new if expires by it own

您好，我是 Hive 和 kerberos 的新手。我有一些 hive 的工作，这些工作的运行时间超过了票的生命周期。我如何配置 hive 以便当我启动 hive shell 如果未缓存票证，它会自动请求票证。获取票证后假设如果票证在中间过期然后自动获取新的票证并且我可能有同一用户同时运行的作 ...

在 Impala 中删除列 - Drop column in Impala

我想在 Impala 中删除整个“索引”列（列名和值）：指数案例ID 客户ID 1个一种 xxx56 我使用了这段代码：结果是这样的：案例ID 客户ID 1个一种我该如何解决这个问题？ ...

基于 SQL 中指定顺序的滞后 - Lag Based on Specified Order in SQL

有谁知道按指定顺序滞后的方法吗？在下面的示例中，我提供了一个表格，其中包含我当前的 output [Lag (Current)] 和我想要的 output [Lag (Desired)] 列。我有兴趣根据事件时间顺序为事件时间创建延迟，需要确保组不会乱序。问题是 CL1 组目前没有根据时间滞后 ...

Hive 查询将时间戳与 unix_timestamp() 进行比较并收到错误：ParseException missing 'at '>' near '<eof> '</eof> - Hive query compare timestamp with unix_timestamp() and received error:ParseException missing ' at '>' near '<EOF>'

我尝试通过比较_timestamp和unix_timestamp()来获取过去 3 秒内的数据，但出现错误：编译语句时出错：失败：ParseException 行 16:15 缺少“在”附近的“>”行 17:16 缺少“在”附近的“<” _timestamp 看起来像这个“1674 ...

使用 saveAsTable 创建的表与使用 spark.sql("CREATE TABLE....) 创建的表的行为不同 - Table created with saveAsTable behaves differently than a table created with spark.sql("CREATE TABLE....)

我定期运行的进程将数据写入镶木地板文件上的表，配置为"spark.sql.sources.partitionOverwriteMode" = "dynamic" ，代码如下：如果该表不存在并且是在第一个子句中创建的，它可以正常工作，并且在下一次运行时表确实存在并且 else 子句运行时它按预期工作 ...

HIVe/Hadoop/Spark SQL ACID 转换 - 如何从 table_a 中删除，其中 table_a.id = table_b.id - HIve/Hadoop/Spark SQL ACID Transformations - How to Delete from table_a where table_a.id = table_b.id

SQL 新手尝试使用 Hive 语法和 ACID 转换执行删除操作我有两个增量文件，我已将其作为 Databricks 中的数据帧引入。表_A 和表_B 这是失败的原因： DELETE FROM Table_A WHERE Table_A.id = Table_B.id 这是我返回的错误Ana ...

将十六进制字符串转换为 hive 中的 bigint 数组 - Cast a hexadecimal string to an array of bigint in hive

我有一列包含长度为 16 的十六进制字符串。我想将它转换为 bigint。有什么办法可以做到这一点？通常的方法返回 null，因为输入字符串可以表示一个大于 2^63-1 的数字。我也尝试过使用 unhex(..)，但出现以下错误 class org.apache.hadoop.hive ...

如何在Hive的列中添加null的值 - How to add null values in columns in Hive

我有一张表，需要在列中添加一个条件。我的条件是仅排除 Age_Flag=AB 并包括所有 null 值。上述查询不包括 null 值和 Age_Flag=AB。 ...

使用kafka处理实时数据 - Process real time data using kafka

我需要为以下用例实施解决方案。目前应用程序正在将数据存储到 Postgres 数据库中，但 Postgres 数据库面临存储问题。所以计划是将数据从 postgres 移动到 Hadoop，并在 hadoop 中提供近乎实时的数据。所以我们想到了以下解决方案。编写 Kafka 生产者应用程序来 ...

HIVE - 如何从 HIVE 中的字符串中提取主题标签 - HIVE - How to extract hashtags from a string in HIVE

如果我们有一个示例字段，说“注释”注释可能在 ( 'xyz #abc-xyz-dfg.#abd', '#123%36&89' , '## avc #1 "从 "string" 更改了 xyz #2\n - stop #3 #' ) 我正在做的是 - REGEXP_EXTRACT( reg ...

Sqoop 可以在 Oracle RDBMS 表上更新与 Hive 表具有不同列结构的记录吗 - Can Sqoop update record on Oracle RDBMS table that have different column structure with Hive table

我是一个 Hadoop 新人，试图将数据从 Hive 导出到 Oracle。Sqoop 可以将数据更新到 Oracle 表吗？ Oracle 表格有 A,B,C,D,E 列我将 Hive 表上的数据存储为 B,C,E Sqoop 可以使用 B,C 作为更新密钥导出更新（仅更新，而不是更新插入）并 ...

HIVE - 从字符串字段中省略完全括起来的 substring - HIVE - Omitting exact bracketed substring from a string field

我有一个字符串字段，其中包含如下记录 “哈利·波特 (HP) (ab-cd)” “无名氏 (ab-cd)” “理查德·史密斯 (RS)” “威廉·约翰逊” 我想从所有记录中删除“(ab-cd)”部分，而不删除任何其他括号中的表达式。结果应该是：“Harry Potter (HP)” “John ...

SQL function 仅下载具有特定值的行 - SQL function to download rows with specific values only

我有不同活动的重复 ID。返回所有 ID，但删除重复项，并返回名为 email 的三个新列，如果活动为（电子邮件（对于 email 列）、电话（对于电话列）、约会（对于约会列），则包含 true 的电话和约会), 否则为假。我拥有的 ID 活动 101 Email 101 约定 102 活动 ...