标签[apache-spark-dataset] - 堆栈内存溢出

有没有办法在 Spark 中将每个分组数据集作为一个整体进行修改？ - Is there a way to modify each grouped dataset as a whole in Spark?

我有这个数据集，我想要一种更灵活的方式来分组和编辑分组数据。例如，我想从此数据集中的每组名称中删除第二个 Random_Text，并连接文本的 rest：以随机数据集为例我想让数据集看起来像这样：我想我需要定义某种自定义的 userdefinedaggregatefunction，但我想不 ...

具有动态类型/结构列的 Spark 数据集 - Spark Dataset with dynamically typed/struct column

我有一个带有已知列的火花数据集，因此可以将其“转换”为案例 class 的数据集。例如case class Record(id: string, occurredAt: Long, jsonBody: String) 我知道创建一个新列，它是已解析的 json 正文，它是基于给定模式动态键入的。 ...

如果仅重复使用两次，是否需要缓存数据集？ - Do I need to cache a Dataset if it is reused only twice?

我正在使用 Apache Spark，我有以下代码：Dataset<Row> tradesDataset = sparkSession .sql("select * from a_table") .cache(); // <-- do I nee ...

直接从 Apache Spark 获取 Splunk 搜索结果 - Getting Splunk search result directly from Apache Spark

关于 Splunk 和 Apache Spark 之间集成的小问题。目前，我正在 Splunk 中进行搜索查询。结果相当大。我将此结果导出为 CSV 文件，以便与下游工作的多个团队共享。每个下游工作最终都会加载 CSV 作为 Apache Spark 作业的一部分，将其转换为 DataSet ...

如何获取 PySpark 列中缺失值的数值？ - How to get the numeric value of missing values in a PySpark column?

我正在使用 PySpark 处理 OpenFoodFacts 数据集。有很多列完全由缺失值组成，我想删除这些列。我一直在寻找方法来检索每列缺失值的数量，但它们以表格格式显示，而不是实际给我 null 总值的数值。以下代码显示列中缺失值的数量，但以表格格式显示：我尝试了以下代码：这个没有按 ...

洗牌分区配置对转换的影响有多大 - How wide transformations are influenced by shuffle partition config

基于洗牌分区配置，广泛的转换实际上是如何工作的？如果我有以下程序：这是否意味着排序将 output 5 个新分区（按配置），然后 spark 从这 5 个分区中获取 200 条记录？ ...

Spark Scala 数据集无法使用 agg function - Spark Scala Dataset cannot use agg function

我正在尝试获取 scala 并使用数据集和聚合函数激发工作。基于mapFunctionToTheSchema（返回多条记录如）：（key: Long, value: Long）我试图计算每个键的平均值。但是，每当我尝试这样做时我不确定，我做错了什么，因为所有其他教程/stackoverfl ...

Spark 数据集使用案例 class - Spark Dataset using case class

当我们必须将 Spark Dataframe 转换为数据集时。我们一般使用案例 class。这意味着我们正在将一行 un-Type 转换为 Type。例子：假设我有一个 RDD & 映射与案例 class 然后转换为 dataframe。为什么最后 dataframe 显示 Da ...

在 Java spark 中，如何基于索引 select 列 - In Java spark, how to select columns based on index

我如何才能在 java spark 中的 csv 文件（文件中没有列名）中仅 select 第 2 列和第 5 列，代码如下： ...

Java Spark 中的两个大文件作为一对多关系加入 - Two big files join as one to many relationship in Java Spark

我有两个大文件 email 文件附件文件为简单起见说注意：广播变量连接已经使用 email 文件和其他一些小文件执行。这两个文件都足够大，广播变量不能再次使用。我想使用带有eid作为连接列的JavaPairRDD连接这两个文件，但不能使用eid制作 pairRDD，因为使用相同的eid密钥链接 ...

如何迭代密集秩的数据集列以在 Scala 中创建另一列的数组？ - How to Iterate Dataset column of dense rank to create Array of another column in Scala?

我的输入如下所示：所需 output：我在 output 数据集中的error_codes列是一个字符串序列。我需要制作一个数组，如果不适合可以更改 Seq。如果您有任何建议，请告诉我。 ...

过滤火花数据集 - Filtering a spark dataset

在火花会话中 val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .getOrCreate( ...

在数据集中查找结构字段的数据类型 - Find the data type of a structfield in dataset

我有一个数据集，它具有以下架构：我想访问每个 StructField 的数据类型。例如if the data type of col_name_1 is NullType print null. 如何构建这个 if 循环？ ...

如何返回数据集中列的中位数？ - How to return the median of a column in a dataset?

我想选择一个数据集列的中值（中值是位于一组按升序排列的值中间的值（例如，字符串的字母顺序））基本上我现在就这样做这个：但我想避免使用collectAsList()方法和listRows var，而是从一个 Spark 转换中获取值，如何在 Spark 中实现这一点？例子：如果目标列是 ...

Spark AQE 对数据集倾斜连接没有帮助 - Spark AQE not helping with dataset skew join

我在 spark 中遇到了一个问题，即 2 个倾斜的数据集需要很长时间才能加入。一个（或两个）数据集中有倾斜的数据，它被用作连接列。所以我启用了 spark AQE，希望它可以帮助我处理倾斜的数据集连接。但是，当我检查 sql 查询指标时，他们并不认为 AQE 正在帮助我解决偏差，并且一些分 ...

写入数据集/数据框时出错。如何正确创建表火花？ - error writing a dataset/dataframe. how to create correctly a table spark?

在对原始数据集/数据框执行几次转换（联合）后，我想将数据集/数据框写入 csv。获得的数据集/数据框完美显示，没有任何问题，但是当我想在 csv 中写入数据集/数据框时，它显示以下错误如果我不对原始数据集/数据框（联合）进行转换，则不会引发异常，并且数据集/数据框将完美地写入 csv。我 ...

在不使用 UDF 的情况下添加具有映射逻辑的多列 - Add multiple columns with map logic without using UDF

我想使用 addressParser 函数从给定的表结构中解析地址列以获取号码、街道、城市和国家。样本输入：地址标识地址添加001 "384, East Avenue Street, 纽约, 美国 ...

使用 Spark 将带有可选字段的嵌套 json 转换为 Scala 案例类不起作用 - Using Spark converting nested json with optional fields to Scala case class not working

我有一个用例，我需要在 scala 中使用 spark 作为 Dataset[T] 读取 json 文件或 json 字符串。 json 文件有嵌套元素，json 中的一些元素是可选的。如果我忽略 json 中的可选字段，因为架构与案例类匹配，我可以读取 json 文件并将它们映射到案例类。 ...

如何检查spark中的列数据类型 - How to check column data type in spark

我有一种插补方法来进行均值、中值和众数运算，但如果列数据类型不是 Double/Float，这将失败。我的java代码：有什么办法可以处理这个我正在使用 java ...

在 Apache Spark 中，Datasets 在什么情况下优于 Dataframes，反之亦然？ - In what situations are Datasets preferred to Dataframes and vice-versa in Apache Spark?

我一直在搜索任何链接、文档或文章，以帮助我了解我们何时使用 Datasets over Dataframes，反之亦然？我在互联网上找到的所有标题都是关于when to use a Dataset的标题，但是当打开时，它们只是指定了数据框和数据集之间的差异。有很多链接只是列出场景名称的差异。 ...