标签[spark-dataframe] - 堆栈内存溢出

使用createDataFrame创建Spark向量列 - Creating a Spark Vector Column with createDataFrame

我可以使用toDF方法创建带有向量列的Spark DataFrame。我不确定如何使用createDataFrame方法创建向量列。 org.apache.spark.sql.types中没有VectorType类型。这不起作用： ...

从案例类创建 DataFrame - Create DataFrame from case class

我已阅读其他相关问题，但没有找到答案。我想从 Spark 2.3 中的案例类创建一个DataFrame 。斯卡拉 2.11.8。代码这是我在 spark-shell 中尝试过的：错误 ...

生成具有各种列数的数据框 - Generate Dataframe with various number of columns

想象一个csv，如下所示：我想自动获取具有4列a，b，c，d的DF。手动技术可以是：这项技术的问题在于，我必须手动精确调整列a，b，c，d的数量，这对于成百上千个或更多功能可能是有问题的。我想象它存在一个可能由sparkSession传递的更有用的方法，但是我 ...

快速搜索Pandas数据框列 - Fast searching a Pandas dataframe column

我有一列包含字符串ID的Pandas数据框。我正在使用idxmax（）返回找到的ID的索引，但是由于数据超过一百万行，因此需要大量时间进行搜索。有什么有效的搜索方法可以减少时间。我目前尚未对ID进行排序。 ...

在SparkTypes上使用Typeclasses - using Typeclasses on SparkTypes

我正在尝试在Spark Types上使用scala TypeClass，这是我编写的一个小代码段。当我在本地intellij上运行此命令时，将引发以下错误我还使用String和Int尝试了相同的操作，并且效果很好。有人可以在SparkTypes上帮助我吗？ ...

在scala中应用条件修剪均值 - Applying conditional trimmed mean in scala

我正在尝试将scala中的每个小组的平均均值降低80％，以消除异常值。但这仅在该组中的记录数至少大于10时才适用。例，因此，在此数据集中，如果我对此进行分组，因此，在这种情况下，如果计数大于10，则应除去异常值（可以将平均值修整为80％），否则直接avg（$“ a ...

Spark分组的Dataframe详细信息 - Spark grouped Dataframe details

如何获得分组的spark-dataframe键？还有一个问题： pyspark.sql.group.GroupedData对象包含什么？ ...

将数据框的顺序保存到HDFS - Saving Order of a Dataframe to HDFS

输入数据：码用列key,data,value将数据读入DF之后我试图按列键排序列，并在保存到hdfs之前将同一列删除（每天放入一个文件中）。我无法在输出文件中保留顺序。如果我不使用合并顺序，则保留顺序，但是会生成多个文件。输出：预期的OP： ...

Spark：在每个分区中变得不同 - Spark: get distinct in each partition

我想使用ID对数据进行分区，并希望在每个分区中 -应用一组操作采取不同在每个分区内进行区分将避免混洗。现在做类似的事情- applyOpers（dataset）应该做类似的事情- ...

如何将String变量分配给数据框名称 - How to assign a String variable to a dataframe name

我有一个问题，这是一个for循环程序。如下所示：但“ new_df_name ”只是一个Variable和String类型。如何实现这些？ ...

Pyspark 将 StructType 转换为 ArrayType<StructType> - Pyspark Cast StructType as ArrayType<StructType>

我有一个数据框 df1，其中的列 col1 具有结构：和另一个具有 col1 结构的数据帧 df2：为了联合 df1.union(df2)，我试图在 df2 中转换列以将其从 StructType 转换为 ArrayType(StructType)，但是我尝试过的任何事情都没有解决。 ...

Spark Streaming - 将 json 格式的消息 Dstream 到 DataFrame - Spark Streaming - Dstream messages in json format to DataFrame

我正在尝试通过 Apache Spark Streaming 读取 Kafka 主题，但无法弄清楚如何将 DStream 中的数据转换为 DataFrame，然后存储在临时表中。 Kafka 中的消息采用 Avro 格式，由 Kafka JDBC Connect 从数据库创建。我有下面的代码，它 ...

如何使用Spark数据帧和partitioningby子句将新数据追加到现有Hive表中 - How to append new data to existing Hive table using Spark data frame and partitionby clause

我有一个要使用partitionBy写入Hive表的数据框- 如果我创建另一个数据框，并希望通过保持分区完整而将该数据框的内容追加到同一张表中，那我该怎么做呢？这是正确的方法吗？我想要下面的输出，但我希望按day对表进行分区，即使我一直将数据追加到原始表之后也是如此。 ...

Spark SQL 2.3-LIKE'％message％'的搜索结果慢 - Spark SQL 2.3 - Slow search results for LIKE '%message%'

我得到log4j格式的日志，对其进行处理并将其存储在Spark中。我不在群集或多节点环境中。将Spark用作单节点应用程序。我只是spark的初学者，通过编写应用程序来学习概念。我不是使用DB（MySQL），而是使用Spark作为后端，因此处理将比DB（用于数百万条记录）快得多。 ...

禁用火花催化剂优化器 - Disable spark catalyst optimizer

为了提供一些背景知识，我正在尝试使用和不使用 Spark 的催化剂优化器在 Spark 上运行 TPCDS 基准测试。对于较小数据集上的复杂查询，我们可能花费更多时间优化计划而不是实际执行计划。因此想要衡量优化器对查询整体执行的性能影响有没有办法禁用部分或全部火花催化剂优化规则？ ...

左外部联接用于在Spark Scala中为两个数据帧记录不平衡 - Left Outer join for unequla records fro two data frames in spark scala

我有两个数据框。数据框一数据帧二是现在，我想将数据帧的所有列添加为两个数据帧，但三列TimeStamp ,OrganizationID and SourceID不同的记录除外。因此，在这种情况下，数据帧一的记录将不会添加到数据帧二。如果TimeStamp |Organ ...

数据框列名称未使用别名更新 - Dataframe column name is not updated using alias

我正在对创建的数据框进行某种聚合。步骤如下但是，当我在新创建的DataFrame上执行printSchema时，我没有看到列名，就像我提供的别名一样，而是显示我期望列名在哪里我正在寻求帮助以了解为什么在新DF中未更新Alias。以及如何修改代码以反映别名中提 ...

火花流持久表更新 - spark streaming persistent table updates

我有一个Spark结构化的流应用程序（正在听kafka），该应用程序也正在从s3中的持久表中读取数据，我正在尝试对每个微批处理检查表的更新。我努力了和两者都不在流上下文中工作。问题在于镶木地板文件在每次更新时都会更改，并且spark不会运行任何常规命令来刷新，例如： ...

如何替换DataFrame列中的空值？ - How to replace empty values in a column of DataFrame?

如何替换 DataFrame df列Field1的空值？此命令未提供预期结果：预期结果： ...

根据多个条件过滤列：Scala Spark - Filter a column based on multiple conditions: Scala Spark

我在尝试根据多个条件来筛选列中的行时遇到了麻烦。基本上，我将多个条件存储在一个数组中，并且希望对它们全部进行过滤。但是，最后我总是出错。谁能建议解决此问题的方法？这是我要实现的一些示例代码： ...