cost 86 ms
生成具有各种列数的数据框 - Generate Dataframe with various number of columns

想象一个csv,如下所示: 我想自动获取具有4列a,b,c,d的DF。 手动技术可以是: 这项技术的问题在于,我必须手动精确调整列a,b,c,d的数量,这对于成百上千个或更多功能可能是有问题的。 我想象它存在一个可能由sparkSession传递的更有用的方法,但是我 ...

在scala中应用条件修剪均值 - Applying conditional trimmed mean in scala

我正在尝试将scala中的每个小组的平均均值降低80%,以消除异常值。 但这仅在该组中的记录数至少大于10时才适用。 例, 因此,在此数据集中,如果我对此进行分组, 因此,在这种情况下,如果计数大于10,则应除去异常值(可以将平均值修整为80%),否则直接avg($“ a ...

将数据框的顺序保存到HDFS - Saving Order of a Dataframe to HDFS

输入数据: 码 用列key,data,value将数据读入DF之后 我试图按列键排序列,并在保存到hdfs之前将同一列删除(每天放入一个文件中)。 我无法在输出文件中保留顺序。 如果我不使用合并顺序,则保留顺序,但是会生成多个文件。 输出: 预期的OP: ...

Spark Streaming - 将 json 格式的消息 Dstream 到 DataFrame - Spark Streaming - Dstream messages in json format to DataFrame

我正在尝试通过 Apache Spark Streaming 读取 Kafka 主题,但无法弄清楚如何将 DStream 中的数据转换为 DataFrame,然后存储在临时表中。 Kafka 中的消息采用 Avro 格式,由 Kafka JDBC Connect 从数据库创建。 我有下面的代码,它 ...

如何使用Spark数据帧和partitioningby子句将新数据追加到现有Hive表中 - How to append new data to existing Hive table using Spark data frame and partitionby clause

我有一个要使用partitionBy写入Hive表的数据框- 如果我创建另一个数据框,并希望通过保持分区完整而将该数据框的内容追加到同一张表中,那我该怎么做呢? 这是正确的方法吗? 我想要下面的输出,但我希望按day对表进行分区,即使我一直将数据追加到原始表之后也是如此。 ...

Spark SQL 2.3-LIKE'%message%'的搜索结果慢 - Spark SQL 2.3 - Slow search results for LIKE '%message%'

我得到log4j格式的日志,对其进行处理并将其存储在Spark中。 我不在群集或多节点环境中。 将Spark用作单节点应用程序。 我只是spark的初学者,通过编写应用程序来学习概念。 我不是使用DB(MySQL),而是使用Spark作为后端,因此处理将比DB(用于数百万条记录)快得多。 ...

禁用火花催化剂优化器 - Disable spark catalyst optimizer

为了提供一些背景知识,我正在尝试使用和不使用 Spark 的催化剂优化器在 Spark 上运行 TPCDS 基准测试。 对于较小数据集上的复杂查询,我们可能花费更多时间优化计划而不是实际执行计划。 因此想要衡量优化器对查询整体执行的性能影响 有没有办法禁用部分或全部火花催化剂优化规则? ...

左外部联接用于在Spark Scala中为两个数据帧记录不平衡 - Left Outer join for unequla records fro two data frames in spark scala

我有两个数据框。 数据框一 数据帧二是 现在,我想将数据帧的所有列添加为两个数据帧,但三列TimeStamp ,OrganizationID and SourceID不同的记录除外。 因此,在这种情况下,数据帧一的记录将不会添加到数据帧二。如果TimeStamp |Organ ...

数据框列名称未使用别名更新 - Dataframe column name is not updated using alias

我正在对创建的数据框进行某种聚合。 步骤如下 但是,当我在新创建的DataFrame上执行printSchema时,我没有看到列名,就像我提供的别名一样,而是显示 我期望列名在哪里 我正在寻求帮助以了解为什么在新DF中未更新Alias。 以及如何修改代码以反映别名中提 ...

火花流持久表更新 - spark streaming persistent table updates

我有一个Spark结构化的流应用程序(正在听kafka),该应用程序也正在从s3中的持久表中读取数据,我正在尝试对每个微批处理检查表的更新。 我努力了 和 两者都不在流上下文中工作。 问题在于镶木地板文件在每次更新时都会更改,并且spark不会运行任何常规命令来刷新,例如: ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM