我有这个数据集,我想要一种更灵活的方式来分组和编辑分组数据。 例如,我想从此数据集中的每组名称中删除第二个 Random_Text,并连接文本的 rest: 以随机数据集为例 我想让数据集看起来像这样: 我想我需要定义某种自定义的 userdefinedaggregatefunction,但我想不 ...
我有这个数据集,我想要一种更灵活的方式来分组和编辑分组数据。 例如,我想从此数据集中的每组名称中删除第二个 Random_Text,并连接文本的 rest: 以随机数据集为例 我想让数据集看起来像这样: 我想我需要定义某种自定义的 userdefinedaggregatefunction,但我想不 ...
我有一个带有已知列的火花数据集,因此可以将其“转换”为案例 class 的数据集。 例如case class Record(id: string, occurredAt: Long, jsonBody: String) 我知道创建一个新列,它是已解析的 json 正文,它是基于给定模式动态键入的。 ...
我正在使用 Apache Spark,我有以下代码:Dataset<Row> tradesDataset = sparkSession .sql("select * from a_table") .cache(); // <-- do I nee ...
关于 Splunk 和 Apache Spark 之间集成的小问题。 目前,我正在 Splunk 中进行搜索查询。 结果相当大。 我将此结果导出为 CSV 文件,以便与下游工作的多个团队共享。 每个下游工作最终都会加载 CSV 作为 Apache Spark 作业的一部分,将其转换为 DataSet ...
我正在使用 PySpark 处理 OpenFoodFacts 数据集。 有很多列完全由缺失值组成,我想删除这些列。 我一直在寻找方法来检索每列缺失值的数量,但它们以表格格式显示,而不是实际给我 null 总值的数值。 以下代码显示列中缺失值的数量,但以表格格式显示: 我尝试了以下代码: 这个没有按 ...
基于洗牌分区配置,广泛的转换实际上是如何工作的? 如果我有以下程序: 这是否意味着排序将 output 5 个新分区(按配置),然后 spark 从这 5 个分区中获取 200 条记录? ...
我正在尝试获取 scala 并使用数据集和聚合函数激发工作。 基于mapFunctionToTheSchema(返回多条记录如):(key: Long, value: Long) 我试图计算每个键的平均值。 但是,每当我尝试这样做时 我不确定,我做错了什么,因为所有其他教程/stackoverfl ...
当我们必须将 Spark Dataframe 转换为数据集时。 我们一般使用案例 class。 这意味着我们正在将一行 un-Type 转换为 Type。 例子: 假设我有一个 RDD & 映射与案例 class 然后转换为 dataframe。 为什么最后 dataframe 显示 Da ...
我如何才能在 java spark 中的 csv 文件(文件中没有列名)中仅 select 第 2 列和第 5 列,代码如下: ...
我有两个大文件 email 文件附件文件为简单起见说 注意:广播变量连接已经使用 email 文件和其他一些小文件执行。 这两个文件都足够大,广播变量不能再次使用。 我想使用带有eid作为连接列的JavaPairRDD连接这两个文件,但不能使用eid制作 pairRDD,因为使用相同的eid密钥链接 ...
我的输入如下所示: 所需 output: 我在 output 数据集中的error_codes列是一个字符串序列。 我需要制作一个数组,如果不适合可以更改 Seq。 如果您有任何建议,请告诉我。 ...
在火花会话中 val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .getOrCreate( ...
我有一个数据集,它具有以下架构: 我想访问每个 StructField 的数据类型。 例如if the data type of col_name_1 is NullType print null. 如何构建这个 if 循环? ...
我想选择一个数据集列的中值(中值是位于一组按升序排列的值中间的值(例如,字符串的字母顺序))基本上我现在就这样做这个: 但我想避免使用collectAsList()方法和listRows var,而是从一个 Spark 转换中获取值,如何在 Spark 中实现这一点? 例子: 如果目标列是 ...
我在 spark 中遇到了一个问题,即 2 个倾斜的数据集需要很长时间才能加入。 一个(或两个)数据集中有倾斜的数据,它被用作连接列。 所以我启用了 spark AQE,希望它可以帮助我处理倾斜的数据集连接。 但是,当我检查 sql 查询指标时,他们并不认为 AQE 正在帮助我解决偏差,并且一些分 ...
在对原始数据集/数据框执行几次转换(联合)后,我想将数据集/数据框写入 csv。 获得的数据集/数据框完美显示,没有任何问题,但是当我想在 csv 中写入数据集/数据框时,它显示以下错误 如果我不对原始数据集/数据框(联合)进行转换,则不会引发异常,并且数据集/数据框将完美地写入 csv。 我 ...
我想使用 addressParser 函数从给定的表结构中解析地址列以获取号码、街道、城市和国家。 样本输入: 地址标识 地址 添加001 "384, East Avenue Street, 纽约, 美国 ...
我有一个用例,我需要在 scala 中使用 spark 作为 Dataset[T] 读取 json 文件或 json 字符串。 json 文件有嵌套元素,json 中的一些元素是可选的。 如果我忽略 json 中的可选字段,因为架构与案例类匹配,我可以读取 json 文件并将它们映射到案例类。 ...
我有一种插补方法来进行均值、中值和众数运算,但如果列数据类型不是 Double/Float,这将失败。 我的java代码: 有什么办法可以处理这个我正在使用 java ...
我一直在搜索任何链接、文档或文章,以帮助我了解我们何时使用 Datasets over Dataframes,反之亦然? 我在互联网上找到的所有标题都是关于when to use a Dataset的标题,但是当打开时,它们只是指定了数据框和数据集之间的差异。 有很多链接只是列出场景名称的差异。 ...