
[英]How can I parse a row's column value passed to a UDF when mapping a column?
我有一个像这样的 dataframe,为了简单起见,我只显示 2 列,两列都是string ,但在现实生活中,除了string之外,它还有更多不同类型的列: SQL文本表名 select * 来自源表; 新表 select * 来自 sourceTable1; 新表1 我还有一个自定义 Fun ...
[英]How can I parse a row's column value passed to a UDF when mapping a column?
我有一个像这样的 dataframe,为了简单起见,我只显示 2 列,两列都是string ,但在现实生活中,除了string之外,它还有更多不同类型的列: SQL文本表名 select * 来自源表; 新表 select * 来自 sourceTable1; 新表1 我还有一个自定义 Fun ...
[英]Multiple formats in Date Time column in Spark
我正在使用 Spark3.0.1 我有以下数据 csv: 348702330256514,37495066290,9084849,33946,614677375609919,11-02-2018 0:00:00,GENUINE 348702330256514,37495066290,330148, ...
[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?
我有一个 Python 脚本,它运行统计分析并对输入数据训练深度学习模型。 数据量相当小 (~5Mb),但由于分析脚本的复杂性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同节点上运行我的脚本,以便我可以获得加速。 基本上,我想将输入数据分成许多子集并并行运行分析脚本。 Spark ...
[英]Transform list of map to dataframe
我有以下数据: 我想将其转换为 dataframe,如下所示: 我尝试了以下内容: 但我得到: ...
[英]Check matching data in Dataframes in spark
如果按照我的方式生成的两个 RDD 包含相同的数据(包括行数),我该如何匹配? 我正在使用 scala 测试来运行测试并使用 scala 2.12.12 启动版本 3 在创建我的两个 rdd 模式的代码下方,包括预期的一个和创建所有 3 个 rdd 数据。 assertData function ...
[英]Unrecognized Hadoop major version number
我正在尝试在 Windows 10 上初始化一个 Apache Spark 实例以运行本地测试。 我的问题是在 Spark 实例初始化期间,我收到一条错误消息。 这段代码以前对我有用过很多次,所以我猜依赖项或配置中可能发生了一些变化。 我正在使用 JDK 版本 1.8.0_192 运行,Hadoop ...
[英]How to change the schema of existing dataframe
问题陈述:我有一个 csv 文件,其中包含大约 100 多个字段。我需要对这些字段执行转换并生成新的 80 多个字段,并仅将这些新字段以 parquet 格式写入 s3。 parquet 预定义架构 = 80+ 新填充的字段 + 一些未填充的字段。 有什么方法可以在将数据写入 s3 时传递此预定义 ...
[英]Unable to save partitioned data in in iceberg format when using s3 and glue
出现以下错误- 这是我在 spark 3.3 上运行的查询,带有胶水目录并保存到 s3。 冰山版本是1.1.0—— 但是当我尝试在不分区的情况下保存数据时,它没有任何问题 - 我该如何解决? ...
[英]How to use Apache spark to implement GraphSAGE?
我想用scala和spark来实现Graph算法GraphSAGE,那怎么办呢? 有没有源代码? 我想获取我的问题的代码 ...
[英]Geospark IllegalArgumentException: Number of partitions must be >= 0
我试图在几个带有几何图形的表上运行一个简单的相交并得到这个错误。 我的脚本。 这是表 A。它有几百万行。 结果。 这是表 B。它只有 1 行。 什么节目给我。 这个错误是怎么回事? 我如何解决它? ...
[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'
有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...
[英]How to create a spark dataframe from one of the column in the existing dataframe
要求: 我想从一列(现有的 dataframe )中创建一个 dataframe 。 该列值是多个 json 列表。 问题: 由于 json 没有固定的架构,我无法使用from_json function,因为它在解析列之前需要架构。 例子 预计 output: 对此有什么想法吗? ...
[英]How to remove the 0s in the id_sum column by a sequence from 1 to n in pyspark dataframe
我有以下 pyspark dataframe df_model : id_client id_sku 1111 4444 1111 4444 2222 6666 2222 6666 3333 777 我使用此代码生成列 id_frecuence: 我的 output 是: ...
[英]What is DataFilter in pyspark?
我在查询执行计划中看到名为DataFilter的东西: 有一个分区过滤器:[] 推送过滤器:[IsNotNull(product_id)] 数据过滤器:[isnotnull(product_id#12)] 我了解PartitionFilter和PushedFilter 。 但是,这里显示的Data ...
[英]What's the best way to group and aggregate an array of objects in a dataframe in scala
一个例子: _4 是我要分组和求和的计数、日期和标签的集合 我希望得到的 output 是这样的,它按对象中的前 3 列和第三个元素(标签)分组,同时对第一个元素(计数)求和。 dataframe 的架构如下所示 ...
[英]PySpark GroupBy agg collect_list multiple columns
我正在使用以下代码。 我正在使用带有以下代码的多列的 collect_list。 我低于 output。 但我需要得到下面的 output。 有没有办法得到上面的 output 会有帮助。 我知道上面的代码不会超过 output。 谁能提供我期待的解决方案。 ...
[英]RuntimeError: SparkContext should only be created and accessed on the driver
我正在尝试执行以下代码,因为我需要查找表并从中创建一个新列。 所以,我正在尝试使用 udf 连接 go,因为加入没有成功。 在那里,我收到RuntimeError: SparkContext should only be created and accessed on the driver. 错误。 ...
[英]How to insert exactly same dataFrame in multiple target including root datasource using Spark function?
我想从单个源读取数据,然后将其写回同一源,然后写入另一个源。 来源可以不同:HDFS、Mongo、Kafka... 通过本地测试,我有一个奇怪的行为。 这是我的第一个测试:我将数据保存在磁盘上而不是重新计算来自原始来源的数据:Dataset<Row> rootDataframe = s ...
[英]Delete rows from Pyspark Dataframe which match to header
我有一个巨大的 dataframe 类似于: 它有与 header 匹配的行,我想删除所有行,这样结果将是: 我试图用.distinct()方法摆脱它们,但总是留下一个。 我该怎么做? ...
[英]Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:
当我使用 spark 连接到 kafka 主题并创建 dataframe 然后存储到 Hudi 中时: 我收到以下异常: 将所有kafka数据存储到Hudi表中 ...