cost 131 ms
有没有办法在 Spark 中将每个分组数据集作为一个整体进行修改? - Is there a way to modify each grouped dataset as a whole in Spark?

我有这个数据集,我想要一种更灵活的方式来分组和编辑分组数据。 例如,我想从此数据集中的每组名称中删除第二个 Random_Text,并连接文本的 rest: 以随机数据集为例 我想让数据集看起来像这样: 我想我需要定义某种自定义的 userdefinedaggregatefunction,但我想不 ...

直接从 Apache Spark 获取 Splunk 搜索结果 - Getting Splunk search result directly from Apache Spark

关于 Splunk 和 Apache Spark 之间集成的小问题。 目前,我正在 Splunk 中进行搜索查询。 结果相当大。 我将此结果导出为 CSV 文件,以便与下游工作的多个团队共享。 每个下游工作最终都会加载 CSV 作为 Apache Spark 作业的一部分,将其转换为 DataSet ...

如何获取 PySpark 列中缺失值的数值? - How to get the numeric value of missing values in a PySpark column?

我正在使用 PySpark 处理 OpenFoodFacts 数据集。 有很多列完全由缺失值组成,我想删除这些列。 我一直在寻找方法来检索每列缺失值的数量,但它们以表格格式显示,而不是实际给我 null 总值的数值。 以下代码显示列中缺失值的数量,但以表格格式显示: 我尝试了以下代码: 这个没有按 ...

Spark Scala 数据集无法使用 agg function - Spark Scala Dataset cannot use agg function

我正在尝试获取 scala 并使用数据集和聚合函数激发工作。 基于mapFunctionToTheSchema(返回多条记录如):(key: Long, value: Long) 我试图计算每个键的平均值。 但是,每当我尝试这样做时 我不确定,我做错了什么,因为所有其他教程/stackoverfl ...

Java Spark 中的两个大文件作为一对多关系加入 - Two big files join as one to many relationship in Java Spark

我有两个大文件 email 文件附件文件为简单起见说 注意:广播变量连接已经使用 email 文件和其他一些小文件执行。 这两个文件都足够大,广播变量不能再次使用。 我想使用带有eid作为连接列的JavaPairRDD连接这两个文件,但不能使用eid制作 pairRDD,因为使用相同的eid密钥链接 ...

如何迭代密集秩的数据集列以在 Scala 中创建另一列的数组? - How to Iterate Dataset column of dense rank to create Array of another column in Scala?

我的输入如下所示: 所需 output: 我在 output 数据集中的error_codes列是一个字符串序列。 我需要制作一个数组,如果不适合可以更改 Seq。 如果您有任何建议,请告诉我。 ...

如何返回数据集中列的中位数? - How to return the median of a column in a dataset?

我想选择一个数据集列的中值(中值是位于一组按升序排列的值中间的值(例如,字符串的字母顺序))基本上我现在就这样做这个: 但我想避免使用collectAsList()方法和listRows var,而是从一个 Spark 转换中获取值,如何在 Spark 中实现这一点? 例子: 如果目标列是 ...

Spark AQE 对数据集倾斜连接没有帮助 - Spark AQE not helping with dataset skew join

我在 spark 中遇到了一个问题,即 2 个倾斜的数据集需要很长时间才能加入。 一个(或两个)数据集中有倾斜的数据,它被用作连接列。 所以我启用了 spark AQE,希望它可以帮助我处理倾斜的数据集连接。 但是,当我检查 sql 查询指标时,他们并不认为 AQE 正在帮助我解决偏差,并且一些分 ...

写入数据集/数据框时出错。 如何正确创建表火花? - error writing a dataset/dataframe. how to create correctly a table spark?

在对原始数据集/数据框执行几次转换(联合)后,我想将数据集/数据框写入 csv。 获得的数据集/数据框完美显示,没有任何问题,但是当我想在 csv 中写入数据集/数据框时,它显示以下错误 如果我不对原始数据集/数据框(联合)进行转换,则不会引发异常,并且数据集/数据框将完美地写入 csv。 我 ...

使用 Spark 将带有可选字段的嵌套 json 转换为 Scala 案例类不起作用 - Using Spark converting nested json with optional fields to Scala case class not working

我有一个用例,我需要在 scala 中使用 spark 作为 Dataset[T] 读取 json 文件或 json 字符串。 json 文件有嵌套元素,json 中的一些元素是可选的。 如果我忽略 json 中的可选字段,因为架构与案例类匹配,我可以读取 json 文件并将它们映射到案例类。 ...

在 Apache Spark 中,Datasets 在什么情况下优于 Dataframes,反之亦然? - In what situations are Datasets preferred to Dataframes and vice-versa in Apache Spark?

我一直在搜索任何链接、文档或文章,以帮助我了解我们何时使用 Datasets over Dataframes,反之亦然? 我在互联网上找到的所有标题都是关于when to use a Dataset的标题,但是当打开时,它们只是指定了数据框和数据集之间的差异。 有很多链接只是列出场景名称的差异。 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM