
[英]Spark PySpark Configuration in Visual Studio Code
我尝试在 Visual Studio Code 中配置 Apache Spark PySpark。 我在 VScode 上安装“Spark & Hive Tools”扩展包并添加Python > Auto Complete: Extra Paths on settings.json 文 ...
[英]Spark PySpark Configuration in Visual Studio Code
我尝试在 Visual Studio Code 中配置 Apache Spark PySpark。 我在 VScode 上安装“Spark & Hive Tools”扩展包并添加Python > Auto Complete: Extra Paths on settings.json 文 ...
[英]Dataproc CPU usage too low even though all the cores got used
问题:我运行的 spark 作业用尽了所有节点上的所有内核,但在 Dataproc CPU 监控图中,CPU 使用率最高达到 12% 我有一个包含 2 个节点的虚拟集群。 每个节点都有: 16 GiB memory 16芯我使用以下配置启动 spark session 并运行以下简单代码: 而且 ...
[英]Writing Mainframe format file through Pyspark
我需要读取 hive 数据库表并以 EBCDIC 编码的文本格式写入该信息,因为它将用作大型机进程的输入。 我们正在使用 cp037 编码。 为此,我将 hive 表读入 df,然后调用自定义 udf 将数值转换为 COMP3 格式(用于在大型机中存储数值),然后使用大型机 EBCDIC 字符集的 ...
[英]Python/PySpark String Split Index on key:value pair modification
以下拆分/索引将从中检索以下 output 'accountv2' 拆分/索引代码如下: 有人可以帮助修改拆分/索引,以便它去掉最后两个字符,即 v2。 所以 output 将是account而不是accountv2 谢谢 ...
[英]How to use pandas to expand a groupby table to have the rows repeated
我有按以下方式分组的数据: 前我想将 dataframe 展开以取消分组,形成如下图所示的表格: 后重复这些项目以获得更简单的表格的最佳方法是什么? 我曾尝试使用 unstack,但我希望列保持与当前相同。 ...
[英]Querying last row of sorted column where value is less than specific amount from parquet file
我有一个大型镶木地板文件,其中一列中的数据已排序。 下面是一个非常简化的示例。 我有兴趣查询 Y 列的最后一个值,因为 X 以最有效的方式使用 python 小于某个数量。 我保证 X 列按升序排序。 例如,假设 X 小于 11,我希望 Y 值为“绿色”。 我尝试了以下方法: 上面的代码“有效”,但 ...
[英]How can I parse a row's column value passed to a UDF when mapping a column?
我有一个像这样的 dataframe,为了简单起见,我只显示 2 列,两列都是string ,但在现实生活中,除了string之外,它还有更多不同类型的列: SQL文本表名 select * 来自源表; 新表 select * 来自 sourceTable1; 新表1 我还有一个自定义 Fun ...
[英]Python or PySpark Regular Expression for leading or trailing defined string
我正在为需要解析以查找价格信息的客户处理大量 package 名称。 样本package姓名如下: Jan24_Package1_USD2_Rest_Of_String Jan25_Package2_2USD_Rest_Of_String Jan26_Package3_USD_2_Rest_O ...
[英]How to Convert string column to Date column in PySpark DataFrame
我有一个如下所示的字符串列 (DOB): 出生日期 1973-6-28 1978-5-02 我想将其转换为Date类型。 我尝试了以下但它在 output 中显示null值。我尝试了 stackoverflow 的其他答案但无济于事。 ...
[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?
我有一个 Python 脚本,它运行统计分析并对输入数据训练深度学习模型。 数据量相当小 (~5Mb),但由于分析脚本的复杂性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同节点上运行我的脚本,以便我可以获得加速。 基本上,我想将输入数据分成许多子集并并行运行分析脚本。 Spark ...
[英]How to convert Zulu time format to datetime format in PySpark?
我正在尝试将包含祖鲁格式时间戳的列转换为典型的日期时间格式。 这是日期格式的示例:1533953335000。 到目前为止,我一直在使用这个: 我用上面代码时的output是:50579-01-17 我希望能够以典型的可读格式查看这些日期。 谁能帮我解决这个问题? ...
[英]How to convert list of JSON object to PySpark DataFrame?
我想将变量中的 JSON 字符串转换为 Databricks 上的 PySpark DataFrame。 我有一个来自 API 的有效负载。它是 JSON 个对象的列表,保存在一个名为response_list的变量上。 变量是 JSON object 类型为class 'str'> :[{ ...
[英]Check matching data in Dataframes in spark
如果按照我的方式生成的两个 RDD 包含相同的数据(包括行数),我该如何匹配? 我正在使用 scala 测试来运行测试并使用 scala 2.12.12 启动版本 3 在创建我的两个 rdd 模式的代码下方,包括预期的一个和创建所有 3 个 rdd 数据。 assertData function ...
[英]Overwriting group of values with in same column another set of group based on other column group
输入: 下面的查询在 sql 服务器中工作,由于相关的子查询在 spark sql 中不起作用。是否有 spark sql 或 pyspark dataframe 的替代方案。 SELECT Name,groupid,IsProcessed,ngid, CASE WHEN WHEN IS NULL ...
[英]Spark Dataframe - Create 12 rows for each cell of a master table
我有一个包含员工 ID 的表,我想为包含 12 个值(每个月 1 个)的月份添加一个附加列。 我想创建一个新表,其中列表中的每个 ID 有 12 行。 举个例子: 我想要的 output 大概是这样的 等等。 我正在使用 pyspark,我当前的语法如下:data = [["1"], ["2"], ...
[英]How to subtract all column values of two PySpark dataframe?
嗨,我遇到过这种情况,我需要像这样减去两个 PySpark dataframe 之间的所有列值:df1: df2: 我想用 df1 - df2: new df: 得到最终的 dataframe 我检查了可能的解决方案是减去两列,如: 但是我有101个列,如何简单的遍历整个东西,避免写出101个类 ...
[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'
有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...
[英]Create a New Column in PySpark Dataframe that Contains Substring of Another Column
我有一个 dataframe,在该 dataframe 中有一列包含字符串值。 每当存在一组特定字符时,我需要从该列中提取 substring 并将其转换为新列。 我希望能够做到这一点,同时也不过滤,以免丢失所有其他行。 对于不包含该特定字符串值的任何行,我希望相应的新列读作“null”。 例如, ...
[英]How to create a spark dataframe from one of the column in the existing dataframe
要求: 我想从一列(现有的 dataframe )中创建一个 dataframe 。 该列值是多个 json 列表。 问题: 由于 json 没有固定的架构,我无法使用from_json function,因为它在解析列之前需要架构。 例子 预计 output: 对此有什么想法吗? ...
[英]Removing leading zeros after joining with ( | ) pyspark
加入后如何删除前导零,例如, 我希望这个数据是 先感谢您!! ...