cost 89 ms
用于不可变数据类型的 spark sql 编码器 - spark sql encoder for immutable data type

在编写 java 代码时,我通常使用不可变值类型。 有时它是通过库(Immutables、AutoValue、Lombok)实现的,但主要是带有以下内容的普通 Java 类: 所有final字段 以所有字段为参数的构造函数 (鉴于当前的火花支持,此问题适用于 java 11 及以下版本) ...

不带任何一个的联合通用类型 Scala - Union generic type without Either Scala

这工作正常: 这也很好: 但是,我们如何实现这一点以返回类型 A 或 B? 是否有可能拥有泛型类型A和B的联合类型? 干杯。 更新1 Either是一个选项,但并不理想,因为它在处理返回的结果时需要模式匹配。 实际上,我想要这个: A <: A|B , B <: A|B ,这Eith ...

编码后无法对自定义类型进行操作? Spark 数据集 - Impossible to operate on custom type after it is encoded? Spark Dataset

假设你有这个(编码自定义类型的解决方案是从这个线程带来的): 什么时候做ds.show ,我得到: 我知道这是因为内容被编码为内部 Spark SQL 二进制表示。 但是我怎样才能像这样显示解码的内容呢? 更新1 显示内容不是最大的问题,更重要的是在处理数据集时可能会导致问题,请考虑 ...

Spark Dataframe - 编码器 - Spark Dataframe - Encoder

我是 Scala 和 Spark 的新手。 我正在尝试使用编码器从 Spark 读取文件,然后转换为 java/scala object。 使用 as 读取应用架构和编码的文件的第一步工作正常。 然后我使用该数据集/数据框执行简单的 map 操作,但如果我尝试在生成的数据集/数据框上打印模式,它不会 ...

如何将 Dataframe 转换为数据集,具有父 class 的 object 引用作为另一个 ZA2F2ED4ADC98EBC2CBBDZC21 内部的组合? - How to covert a Dataframe to a Dataset,having a object reference of the parent class as a composition inside another class?

我正在尝试将Dataframe转换为Dataset ,并且 java 类结构如下: classpublic class A { private int a; public int getA() { return a; } public voi ...

在 Spark Dataset mapGroups 操作后,Value Type 是二进制的,甚至在函数中返回一个 String - Value Type is binary after Spark Dataset mapGroups operation even return a String in the function

环境: spark应用程序尝试执行以下操作 1) 将输入数据转换成Dataset[GenericRecord] 2)按GenericRecord的key属性分组 3) 使用 mapGroups after group 迭代值列表并得到一些字符串格式的结果 4) 将结果输出为文本文件中 ...

在 Spark 数据集中添加 ADT 列? - Add ADT column in Spark dataset?

我想创建一个包含 ADT 列的数据集。 基于这个问题: Encode an ADT / seal trait hierarchy into Spark DataSet column我知道,有一个用 kryo 编码的解决方案,但这并不是很有帮助。 有另一种方法可以更好地解决这个问题。 让我们定义以下 ...

创建编码器后,在 Spark 中解析 Protobuf ByteString 不起作用 - Parsing Protobuf ByteString in Spark not working after creating Encoder

我正在尝试解析 spark 2.4 中的 protobuf (protobuf3) 数据,但 ByteString 类型遇到了一些问题。 我使用 ScalaPB 库创建了案例 class 并将 jar 加载到火花 shell 中。 我也尝试为该类型创建一个隐式编码器,但是我仍然收到以下错误; jav ...

在创建数据集时使用 @JsonProperty 重命名 spark 中的列 - Rename columns in spark using @JsonProperty while creating Datasets

有没有办法在创建数据集时使用 Jackson 注释重命名数据集中的列名? 我的编码器类如下: 我的目标是根据@JsonProperty 重命名列,以便我可以重新使用相同的类和 json 功能。 请找到模块的相关版本: - Spark : 2.4.0 (with scala 2.11) - j ...

如何为Scala集合创建编码器(以实现自定义Aggregator)? - How to create an Encoder for Scala collection (to implement custom Aggregator)?

使用Scala 2.11的Spark 2.3.0。 我正在根据此处的文档实现自定义Aggregator 。 聚合器需要3种类型的输入,缓冲区和输出。 我的聚合器必须对窗口中的所有先前行进行操作,因此我这样声明: 一种重写方法应该返回用于缓冲区类型的编码器,在这种情况下为List ...

Generic T as Spark Dataset [T]构造函数 - Generic T as Spark Dataset[T] constructor

在下面的代码片段中, tryParquet函数尝试从Parquet文件加载数据集(如果存在)。 如果没有,它会计算,持久并返回提供的数据集计划: 但是这会在df.as[T]上产生编译错误: 无法找到存储在数据集中的类型的编码器。 导入spark.implicits._支持原 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM