cost 72 ms
Dataproc CPU 使用率太低,即使所有内核都已使用

[英]Dataproc CPU usage too low even though all the cores got used

问题:我运行的 spark 作业用尽了所有节点上的所有内核,但在 Dataproc CPU 监控图中,CPU 使用率最高达到 12% 我有一个包含 2 个节点的虚拟集群。 每个节点都有: 16 GiB memory 16芯我使用以下配置启动 spark session 并运行以下简单代码: 而且 ...

通过Pyspark写入Mainframe格式文件

[英]Writing Mainframe format file through Pyspark

我需要读取 hive 数据库表并以 EBCDIC 编码的文本格式写入该信息,因为它将用作大型机进程的输入。 我们正在使用 cp037 编码。 为此,我将 hive 表读入 df,然后调用自定义 udf 将数值转换为 COMP3 格式(用于在大型机中存储数值),然后使用大型机 EBCDIC 字符集的 ...

键值对修改上的 Python/PySpark 字符串拆分索引

[英]Python/PySpark String Split Index on key:value pair modification

以下拆分/索引将从中检索以下 output 'accountv2' 拆分/索引代码如下: 有人可以帮助修改拆分/索引,以便它去掉最后两个字符,即 v2。 所以 output 将是account而不是accountv2 谢谢 ...

如何使用 pandas 扩展 groupby 表以重复行

[英]How to use pandas to expand a groupby table to have the rows repeated

我有按以下方式分组的数据: 前我想将 dataframe 展开以取消分组,形成如下图所示的表格: 后重复这些项目以获得更简单的表格的最佳方法是什么? 我曾尝试使用 unstack,但我希望列保持与当前相同。 ...

从镶木地板文件中查询值小于特定数量的排序列的最后一行

[英]Querying last row of sorted column where value is less than specific amount from parquet file

我有一个大型镶木地板文件,其中一列中的数据已排序。 下面是一个非常简化的示例。 我有兴趣查询 Y 列的最后一个值,因为 X 以最有效的方式使用 python 小于某个数量。 我保证 X 列按升序排序。 例如,假设 X 小于 11,我希望 Y 值为“绿色”。 我尝试了以下方法: 上面的代码“有效”,但 ...

映射列时如何解析传递给 UDF 的行的列值?

[英]How can I parse a row's column value passed to a UDF when mapping a column?

我有一个像这样的 dataframe,为了简单起见,我只显示 2 列,两列都是string ,但在现实生活中,除了string之外,它还有更多不同类型的列: SQL文本表名 select * 来自源表; 新表 select * 来自 sourceTable1; 新表1 我还有一个自定义 Fun ...

如何将字符串列转换为日期列 PySpark DataFrame

[英]How to Convert string column to Date column in PySpark DataFrame

我有一个如下所示的字符串列 (DOB): 出生日期 1973-6-28 1978-5-02 我想将其转换为Date类型。 我尝试了以下但它在 output 中显示null值。我尝试了 stackoverflow 的其他答案但无济于事。 ...

2023-02-01 18:44:39   1   17    date / pyspark  
Spark 是否适合在许多节点中自动运行统计分析脚本以加快速度?

[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

我有一个 Python 脚本,它运行统计分析并对输入数据训练深度学习模型。 数据量相当小 (~5Mb),但由于分析脚本的复杂性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同节点上运行我的脚本,以便我可以获得加速。 基本上,我想将输入数据分成许多子集并并行运行分析脚本。 Spark ...

如何将 PySpark 中的祖鲁时间格式转换为日期时间格式?

[英]How to convert Zulu time format to datetime format in PySpark?

我正在尝试将包含祖鲁格式时间戳的列转换为典型的日期时间格式。 这是日期格式的示例:1533953335000。 到目前为止,我一直在使用这个: 我用上面代码时的output是:50579-01-17 我希望能够以典型的可读格式查看这些日期。 谁能帮我解决这个问题? ...

检查spark中Dataframes中的匹配数据

[英]Check matching data in Dataframes in spark

如果按照我的方式生成的两个 RDD 包含相同的数据(包括行数),我该如何匹配? 我正在使用 scala 测试来运行测试并使用 scala 2.12.12 启动版本 3 在创建我的两个 rdd 模式的代码下方,包括预期的一个和创建所有 3 个 rdd 数据。 assertData function ...

在同一列中用另一组基于其他列组的组覆盖一组值

[英]Overwriting group of values with in same column another set of group based on other column group

输入: 下面的查询在 sql 服务器中工作,由于相关的子查询在 spark sql 中不起作用。是否有 spark sql 或 pyspark dataframe 的替代方案。 SELECT Name,groupid,IsProcessed,ngid, CASE WHEN WHEN IS NULL ...

Spark Dataframe - 为主表的每个单元格创建 12 行

[英]Spark Dataframe - Create 12 rows for each cell of a master table

我有一个包含员工 ID 的表,我想为包含 12 个值(每个月 1 个)的月份添加一个附加列。 我想创建一个新表,其中列表中的每个 ID 有 12 行。 举个例子: 我想要的 output 大概是这样的 等等。 我正在使用 pyspark,我当前的语法如下:data = [["1"], ["2"], ...

如何减去两个PySpark dataframe的所有列值?

[英]How to subtract all column values of two PySpark dataframe?

嗨,我遇到过这种情况,我需要像这样减去两个 PySpark dataframe 之间的所有列值:df1: df2: 我想用 df1 - df2: new df: 得到最终的 dataframe 我检查了可能的解决方案是减去两列,如: 但是我有101个列,如何简单的遍历整个东西,避免写出101个类 ...

当字符串以“d”结尾时,Spark 错误地将数据类型从 csv 解释为 Double

[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'

有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...

在 PySpark Dataframe 中新建一列,其中包含另一列的 Substring

[英]Create a New Column in PySpark Dataframe that Contains Substring of Another Column

我有一个 dataframe,在该 dataframe 中有一列包含字符串值。 每当存在一组特定字符时,我需要从该列中提取 substring 并将其转换为新列。 我希望能够做到这一点,同时也不过滤,以免丢失所有其他行。 对于不包含该特定字符串值的任何行,我希望相应的新列读作“null”。 例如, ...

如何从现有 dataframe 中的列之一创建火花 dataframe

[英]How to create a spark dataframe from one of the column in the existing dataframe

要求: 我想从一列(现有的 dataframe )中创建一个 dataframe 。 该列值是多个 json 列表。 问题: 由于 json 没有固定的架构,我无法使用from_json function,因为它在解析列之前需要架构。 例子 预计 output: 对此有什么想法吗? ...

加入 ( | ) 后删除前导零 pyspark

[英]Removing leading zeros after joining with ( | ) pyspark

加入后如何删除前导零,例如, 我希望这个数据是 先感谢您!! ...

2023-02-01 03:29:13   1   42    pyspark  

 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM