cost 150 ms
映射列时如何解析传递给 UDF 的行的列值?

[英]How can I parse a row's column value passed to a UDF when mapping a column?

我有一个像这样的 dataframe,为了简单起见,我只显示 2 列,两列都是string ,但在现实生活中,除了string之外,它还有更多不同类型的列: SQL文本表名 select * 来自源表; 新表 select * 来自 sourceTable1; 新表1 我还有一个自定义 Fun ...

Spark 日期时间列中的多种格式

[英]Multiple formats in Date Time column in Spark

我正在使用 Spark3.0.1 我有以下数据 csv: 348702330256514,37495066290,9084849,33946,614677375609919,11-02-2018 0:00:00,GENUINE 348702330256514,37495066290,330148, ...

Spark 是否适合在许多节点中自动运行统计分析脚本以加快速度?

[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

我有一个 Python 脚本,它运行统计分析并对输入数据训练深度学习模型。 数据量相当小 (~5Mb),但由于分析脚本的复杂性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同节点上运行我的脚本,以便我可以获得加速。 基本上,我想将输入数据分成许多子集并并行运行分析脚本。 Spark ...

检查spark中Dataframes中的匹配数据

[英]Check matching data in Dataframes in spark

如果按照我的方式生成的两个 RDD 包含相同的数据(包括行数),我该如何匹配? 我正在使用 scala 测试来运行测试并使用 scala 2.12.12 启动版本 3 在创建我的两个 rdd 模式的代码下方,包括预期的一个和创建所有 3 个 rdd 数据。 assertData function ...

无法识别的 Hadoop 主要版本号

[英]Unrecognized Hadoop major version number

我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。 我的问题是在 Spark 实例初始化期间,我收到一条错误消息。 这段代码以前对我有用过很多次,所以我猜依赖项或配置中可能发生了一些变化。 我正在使用 JDK 版本 1.8.0_192 运行,Hadoop ...

如何更改现有 dataframe 的模式

[英]How to change the schema of existing dataframe

问题陈述:我有一个 csv 文件,其中包含大约 100 多个字段。我需要对这些字段执行转换并生成新的 80 多个字段,并仅将这些新字段以 parquet 格式写入 s3。 parquet 预定义架构 = 80+ 新填充的字段 + 一些未填充的字段。 有什么方法可以在将数据写入 s3 时传递此预定义 ...

Geospark IllegalArgumentException:分区数必须 >= 0

[英]Geospark IllegalArgumentException: Number of partitions must be >= 0

我试图在几个带有几何图形的表上运行一个简单的相交并得到这个错误。 我的脚本。 这是表 A。它有几百万行。 结果。 这是表 B。它只有 1 行。 什么节目给我。 这个错误是怎么回事? 我如何解决它? ...

当字符串以“d”结尾时,Spark 错误地将数据类型从 csv 解释为 Double

[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'

有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...

如何从现有 dataframe 中的列之一创建火花 dataframe

[英]How to create a spark dataframe from one of the column in the existing dataframe

要求: 我想从一列(现有的 dataframe )中创建一个 dataframe 。 该列值是多个 json 列表。 问题: 由于 json 没有固定的架构,我无法使用from_json function,因为它在解析列之前需要架构。 例子 预计 output: 对此有什么想法吗? ...

pyspark中的DataFilter是什么?

[英]What is DataFilter in pyspark?

我在查询执行计划中看到名为DataFilter的东西: 有一个分区过滤器:[] 推送过滤器:[IsNotNull(product_id)] 数据过滤器:[isnotnull(product_id#12)] 我了解PartitionFilter和PushedFilter 。 但是,这里显示的Data ...

在 scala 中对 dataframe 中的对象数组进行分组和聚合的最佳方法是什么

[英]What's the best way to group and aggregate an array of objects in a dataframe in scala

一个例子: _4 是我要分组和求和的计数、日期和标签的集合 我希望得到的 output 是这样的,它按对象中的前 3 列和第三个元素(标签)分组,同时对第一个元素(计数)求和。 dataframe 的架构如下所示 ...

PySpark GroupBy agg collect_list 多列

[英]PySpark GroupBy agg collect_list multiple columns

我正在使用以下代码。 我正在使用带有以下代码的多列的 collect_list。 我低于 output。 但我需要得到下面的 output。 有没有办法得到上面的 output 会有帮助。 我知道上面的代码不会超过 output。 谁能提供我期待的解决方案。 ...

RuntimeError:SparkContext 应该只在驱动程序上创建和访问

[英]RuntimeError: SparkContext should only be created and accessed on the driver

我正在尝试执行以下代码,因为我需要查找表并从中创建一个新列。 所以,我正在尝试使用 udf 连接 go,因为加入没有成功。 在那里,我收到RuntimeError: SparkContext should only be created and accessed on the driver. 错误。 ...

如何使用 Spark function 在包括根数据源的多个目标中插入完全相同的 dataFrame?

[英]How to insert exactly same dataFrame in multiple target including root datasource using Spark function?

我想从单个源读取数据,然后将其写回同一源,然后写入另一个源。 来源可以不同:HDFS、Mongo、Kafka... 通过本地测试,我有一个奇怪的行为。 这是我的第一个测试:我将数据保存在磁盘上而不是重新计算来自原始来源的数据:Dataset<Row> rootDataframe = s ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM