标签[apache-spark-sql]

Apache Spark SQL是在快速通用集群计算系统Spark上进行“ SQL和结构化数据处理”的工具。

0
0回复
04

如何定义要在from_json中使用的json模式来解析值

我正在尝试提出一个模式定义来解析我使用 from_json 的数据帧字符串列中的信息。 我需要帮助来定义模式,但我不知何故做得不对。 这是我拥有的 Json 我想解析这些信息,这将导致列 sectionid , sequence, xid, question.sequence, question.q
0
0回复
07

将具有自定义架构的CSV文件读入Spark数据帧

我正在尝试将 CSV 文件读入 Spark 数据帧。 CSV 文件的内容如下所示。 bookInterested 列中值的数量可以从 1 到 200 不等。 这是我读取文件时遇到的错误。 有关如何解决此问题的任何建议?
0
0回复
06

Spark更改存储桶计数不会更改文件数

我有一个包含 23M 行的 Spark 数据集。 其中一列包含一个具有 32 个唯一值的key 。 这些key稍后用于聚合、排序和训练模型的过程中。 我已经在Train 、 Test和Validation拆分了数据集,并且为了避免随后的洗牌,我使用bucket_count = 30的列key对每个数
0
1回复
16

一张本地表和一张DB表的join操作背后的机制

当我从本地RDD注册一张表和从DB注册一张表时,我发现两个表之间的连接操作真的很慢。 来自DB的表实际上是一个有多个join操作的SQL,本地RDD只有20条记录。 我很好奇它背后的机制。 我们是否从远程数据库中提取数据并在本地 Spark 集群中执行所有任务? 或者我们是否有一个“有趣的”SQL
0
1回复
19

在Pyspark中将(转换)列转换为行

我有以下格式的 spark 数据框,其中每个唯一 id 最多可以有 3 行,由 rank 列给出。 我想将(转换)成行数据,这样每个 id 只有一行,而 pred 和 prob 列有多个由等级变量(列后缀)区分的列。 我无法弄清楚如何在Pyspark 中使用它输入数据创建示例代码:
-1
0回复
13

使用Spark在Jupyter上运行Python

如何消除错误? 我在 jupyter 笔记本上使用了 pyspark。 请点击链接打开代码块
0
0回复
20

PySpark数据帧架构动态传递

我有一个像下面这样的火花数据框: 现在我试图删除列名作为值并获得如下架构 我使用的代码如下: 我得到的输出如下,这是不正确的 使用过 spark 版本 - 2.4.0 ,Python 版本 - 3.6.12 感谢您的支持
0
0回复
07

为什么左连接子查询可以解析SparkSQL中的AnalysisException属性?

由于 AnalysisException 属性,我无法理解为什么第一个查询不起作用。 然而,第二个有效。 第一个查询 第二次查询
0
0回复
20

从列中的列表在数据框中创建新列

我有一个 pyspark 数据框,就像下面的输入 df 示例数据框。 在数据框中,id 列由长度为 2 的列表组成。我想创建一个新的数据框,如下面所需的输出,其中 id 列是 df.id 列和所有其他列中列表中的第一个值是列表中的第二个值。 这些新列中的值将是原始记录中相应的 df.prob 值。
0
0回复
07

sparkcreatedataframe无法推断架构-默认数据类型?

使用 createdataframe 在 databricks 中创建 spark 数据帧会导致错误:“推断后无法确定某些类型” 我知道我可以指定模式,但是如果我每次都使用来自 API 的源数据创建数据框并且他们决定对其进行重组,那将无济于事。 相反,我想告诉 spark 对无法推断数据类型的任何列
0
1回复
17

用于不可变数据类型的sparksql编码器

在编写 java 代码时,我通常使用不可变值类型。 有时它是通过库(Immutables、AutoValue、Lombok)实现的,但主要是带有以下内容的普通 Java 类: 所有final字段 以所有字段为参数的构造函数 (鉴于当前的火花支持,此问题适用于 java 11 及以下版本)。 在 S
0
0回复
06

apacheSparkjava:columnNameOfCorruptRecord和badRecordsPath在加载csv时不起作用

我们正在尝试在加载 spark 时执行错误的数据处理。 我们使用的是 spark 2.4.0。 目前,截至目前PERMISSIVE 、 FAILFAST和DROPMALFORMED模式正在按预期工作。 但是我尝试了所有columnNameOfCorruptRecord和badRecordsPath选
0
1回复
18

使Spark代码更高效、更简洁

我有以下代码来清理文档语料库( pipelineClean(corpus) ),它返回一个包含两列的数据框: “id”:长 “令牌”:数组[字符串]。 之后,代码生成一个包含以下列的数据框: “术语”:字符串 "postingList": List[Array[Long, Long]]
0
1回复
24

基于最近日期的Spark加入

我有 2 张镶木地板表。 简化的架构如下: 例如,产品数据框可以包含以下条目: 产品: 异常事件: 我想加入 2 个 DF,以便 SerialNumbers 匹配,并且 ValidityDate 应映射为 ExceptionEvent 的 ValidityDate2 大于 Product 的 Val
0
1回复
16

将ArrayType列传递给SparkScala中的UDF

我在 Scala 的 Spark 数据框中有一列,它是由于使用多列聚合而生成的 我想将此列传递给 UDF 以进行进一步处理,以处理此聚合列中的一个索引。 当我将参数传递给我的 UDF 时: UDF- 类型为 Seq[Row]: val removeUnstableActivations: User
0
0回复
06

org.apache.spark.sql.AnalysisException:必须使用writeStream.start();执行带有流源的查询;文件源[hdfs://localhost:9000..

我正在尝试使用速率接收器流加入 csv 接收器流: 和 和 val cvsStream2 = rate.as("counter").join(cvsStream.as("csv")).where("csv.id == mod(counter.value,"+divider +")").withWat
0
0回复
11

SparkSQL连接数据与RestAPI数据

我需要使用来自 Rest 端点的 JSON 数据加入一个 hive 表。 使用 UDF 还是数据源(如临时表)更好? 如果使用 UDF,什么是限制 RPS 的好方法?
0
1回复
35

仅删除负值的前导零

我有一个数据框,只需要删除负值类型的前导零,其余值相同。 例如 我试过下面的方法
0
1回复
39

如何以编程方式应用多个where条件

df = spark.createDataFrame( [ ('1','NA','9'), ('4','2', '5'), ('6','4','2'), ('5','NA','1'), ('7','N/A','8'),
0
1回复
18

Databricks-如何加入包含在结构类型列中的ID的表>

我目前有 JSON 文件,我可以从中将其数据转储到临时视图中。 遵循 Python (PySpark) 逻辑: 这个临时视图在数组中包含部门的数据和该部门内的员工列表。 一名员工可以隶属于多个部门。 以下是此视图的数据类型: 部门 ID:字符串 部门名称:字符串 员工 ID:数组<字符串。&

1 2 3 4 5 6 7 8 9 10 下一页