
[英]Python/PySpark String Split Index on key:value pair modification
以下拆分/索引将从中检索以下 output 'accountv2' 拆分/索引代码如下: 有人可以帮助修改拆分/索引,以便它去掉最后两个字符,即 v2。 所以 output 将是account而不是accountv2 谢谢 ...
[英]Python/PySpark String Split Index on key:value pair modification
以下拆分/索引将从中检索以下 output 'accountv2' 拆分/索引代码如下: 有人可以帮助修改拆分/索引,以便它去掉最后两个字符,即 v2。 所以 output 将是account而不是accountv2 谢谢 ...
[英]How to use pandas to expand a groupby table to have the rows repeated
我有按以下方式分组的数据: 前我想将 dataframe 展开以取消分组,形成如下图所示的表格: 后重复这些项目以获得更简单的表格的最佳方法是什么? 我曾尝试使用 unstack,但我希望列保持与当前相同。 ...
[英]Querying last row of sorted column where value is less than specific amount from parquet file
我有一个大型镶木地板文件,其中一列中的数据已排序。 下面是一个非常简化的示例。 我有兴趣查询 Y 列的最后一个值,因为 X 以最有效的方式使用 python 小于某个数量。 我保证 X 列按升序排序。 例如,假设 X 小于 11,我希望 Y 值为“绿色”。 我尝试了以下方法: 上面的代码“有效”,但 ...
[英]How can I parse a row's column value passed to a UDF when mapping a column?
我有一个像这样的 dataframe,为了简单起见,我只显示 2 列,两列都是string ,但在现实生活中,除了string之外,它还有更多不同类型的列: SQL文本表名 select * 来自源表; 新表 select * 来自 sourceTable1; 新表1 我还有一个自定义 Fun ...
[英]Python or PySpark Regular Expression for leading or trailing defined string
我正在为需要解析以查找价格信息的客户处理大量 package 名称。 样本package姓名如下: Jan24_Package1_USD2_Rest_Of_String Jan25_Package2_2USD_Rest_Of_String Jan26_Package3_USD_2_Rest_O ...
[英]How to Convert string column to Date column in PySpark DataFrame
我有一个如下所示的字符串列 (DOB): 出生日期 1973-6-28 1978-5-02 我想将其转换为Date类型。 我尝试了以下但它在 output 中显示null值。我尝试了 stackoverflow 的其他答案但无济于事。 ...
[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?
我有一个 Python 脚本,它运行统计分析并对输入数据训练深度学习模型。 数据量相当小 (~5Mb),但由于分析脚本的复杂性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同节点上运行我的脚本,以便我可以获得加速。 基本上,我想将输入数据分成许多子集并并行运行分析脚本。 Spark ...
[英]How to convert Zulu time format to datetime format in PySpark?
我正在尝试将包含祖鲁格式时间戳的列转换为典型的日期时间格式。 这是日期格式的示例:1533953335000。 到目前为止,我一直在使用这个: 我用上面代码时的output是:50579-01-17 我希望能够以典型的可读格式查看这些日期。 谁能帮我解决这个问题? ...
[英]How to convert list of JSON object to PySpark DataFrame?
我想将变量中的 JSON 字符串转换为 Databricks 上的 PySpark DataFrame。 我有一个来自 API 的有效负载。它是 JSON 个对象的列表,保存在一个名为response_list的变量上。 变量是 JSON object 类型为class 'str'> :[{ ...
[英]Check matching data in Dataframes in spark
如果按照我的方式生成的两个 RDD 包含相同的数据(包括行数),我该如何匹配? 我正在使用 scala 测试来运行测试并使用 scala 2.12.12 启动版本 3 在创建我的两个 rdd 模式的代码下方,包括预期的一个和创建所有 3 个 rdd 数据。 assertData function ...
[英]Overwriting group of values with in same column another set of group based on other column group
输入: 下面的查询在 sql 服务器中工作,由于相关的子查询在 spark sql 中不起作用。是否有 spark sql 或 pyspark dataframe 的替代方案。 SELECT Name,groupid,IsProcessed,ngid, CASE WHEN WHEN IS NULL ...
[英]Spark Dataframe - Create 12 rows for each cell of a master table
我有一个包含员工 ID 的表,我想为包含 12 个值(每个月 1 个)的月份添加一个附加列。 我想创建一个新表,其中列表中的每个 ID 有 12 行。 举个例子: 我想要的 output 大概是这样的 等等。 我正在使用 pyspark,我当前的语法如下:data = [["1"], ["2"], ...
[英]How to subtract all column values of two PySpark dataframe?
嗨,我遇到过这种情况,我需要像这样减去两个 PySpark dataframe 之间的所有列值:df1: df2: 我想用 df1 - df2: new df: 得到最终的 dataframe 我检查了可能的解决方案是减去两列,如: 但是我有101个列,如何简单的遍历整个东西,避免写出101个类 ...
[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'
有一个带有列 ID 的 CSV(格式:8 位数字和末尾的“D”)。 使用.option("inferSchema", "true") 读取 csv 时,它返回数据类型为 double 并修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...
[英]Create a New Column in PySpark Dataframe that Contains Substring of Another Column
我有一个 dataframe,在该 dataframe 中有一列包含字符串值。 每当存在一组特定字符时,我需要从该列中提取 substring 并将其转换为新列。 我希望能够做到这一点,同时也不过滤,以免丢失所有其他行。 对于不包含该特定字符串值的任何行,我希望相应的新列读作“null”。 例如, ...
[英]How to create a spark dataframe from one of the column in the existing dataframe
要求: 我想从一列(现有的 dataframe )中创建一个 dataframe 。 该列值是多个 json 列表。 问题: 由于 json 没有固定的架构,我无法使用from_json function,因为它在解析列之前需要架构。 例子 预计 output: 对此有什么想法吗? ...
[英]Removing leading zeros after joining with ( | ) pyspark
加入后如何删除前导零,例如, 我希望这个数据是 先感谢您!! ...
[英]Read multiple csv files with different number of columns for each csv file in PySpark
赏金将在 6 天后到期。 此问题的答案有资格获得+100声望赏金。 ForestGump正在寻找此问题的最新答案。 我想使用 PySpark 读取具有不同列数的多个 csv 文件。 f1 文件有 50 列,f2 还有 10 列,总共 60 列,f3 还有 30 列,f3 文件总共有 80 列, ...
[英]How to remove the 0s in the id_sum column by a sequence from 1 to n in pyspark dataframe
我有以下 pyspark dataframe df_model : id_client id_sku 1111 4444 1111 4444 2222 6666 2222 6666 3333 777 我使用此代码生成列 id_frecuence: 我的 output 是: ...
[英]Pyspark convert dataframe to time series data with 2-day lag
我有一个 pyspark dataframe 如下: 我想将 dataframe 转换为具有 2 天延迟的时间序列数据集(按页和组分组): 在pyspark应该怎么做? ...