我想根据年龄收集样本,条件是失败状态。 我对 3 天前的序列号感兴趣。 但是,我不需要少于 3 天的健康序列号,但我想包括所有少于 3 天或刚好 3 天的失败序列号。 例如,C 在 1 月 3 日失败,因此我需要在我的新样本中包括序列号 C 的 1 月 1 日和 2 日。 系列 D 在 1 月 4 ...
我想根据年龄收集样本,条件是失败状态。 我对 3 天前的序列号感兴趣。 但是,我不需要少于 3 天的健康序列号,但我想包括所有少于 3 天或刚好 3 天的失败序列号。 例如,C 在 1 月 3 日失败,因此我需要在我的新样本中包括序列号 C 的 1 月 1 日和 2 日。 系列 D 在 1 月 4 ...
我有一个大型数据框,包含 400 多列和 14000 多条记录,我需要对其进行清理。 我已经定义了一个 python 代码来执行此操作,但是由于我的数据集的大小,我需要使用 PySpark 来清理它。 但是,我对 PySpark 非常陌生,不知道如何在 PySpark 中创建 python fun ...
我在创建 Pandas UDF 时遇到问题,该 UDF 基于底层 Spark Dataframe 同一行中的值对 pd 系列执行计算。 但是,Spark API 上的 Pandas 似乎不支持最直接的解决方案: 一个非常简单的例子如下 在 udf 定义行抛出以下异常 我是否以错误的方式解决了这个问 ...
假设我有一个 pyspark DF:| Column A | Column B | | -------- | -------- | | val1 | val1B | | null | val2B | | val2 | null | | val3 ...
在 pyspark 中,我试图用列中存在的值替换列中的多个文本值,这些值存在于计算列(公式)中。 所以要清楚,这是一个例子: 输入: Output 需要: 在计算列中,默认值为公式。 它可以像上面提供的一样简单,也可以类似于“2*(param_8-param_4)/param_2-(param_3 ...
我正在使用看起来与此类似的 PySpark Pandas DataFrame: 总数据集相当大(大约 55 行),所以这个例子只是部分的。 我试图根据两个参数删除行: 该 col2 是 Windows 服务器的路径并且具有文件夹“a” col3 等于不等于 3 最终结果应该是这样的: 注意:请注意 ...
我目前正在 Databricks 中开展一个项目,单个表中大约有 6 GiB 的数据,因此您可以想象,在这样的表上运行时是非常昂贵的。 我会称自己为经验丰富的编码员,但对于大数据我还是新鲜的。 在处理较小的数据集时,我会经常测试我的部分代码以查看它是否正常运行,例如: 然而,对于这样的大数据,过滤 ...
我有两个文件,一个是 file1.csv,另一个是 file2.csv 我已经将 file1 数据放在一个 dataframe 中,当第二个文件 file2.csv 到达时,我必须以这样的方式编写代码,如果第二个文件数据匹配在基于年份和月份列的第一个文件数据中,然后从文件 1 dataframe 中 ...
我想要天数中两个日期列之间的差异。 在 pandas dataframe 两个“datetime64”类型列中的差异返回天数但在 pyspark.pandas dataframe 中,差异以“int”类型返回。import pandas as pd import pyspark.pandas as ...
我正在尝试使用 pyspark.pandas.read_table 将 Databricks 上的表读取到pyspark.pandas.read_table并收到以下错误: 该表是根据 Databricks 快速入门笔记本创建的: 我正在尝试阅读表格 并得到上面的错误。 将表格读入spark.sq ...
我正在尝试将以下 pandas 代码转换为 PySpark。但我在这两点上遇到了麻烦: 但是Spark DataFrame中有索引吗? 我怎样才能像这样在 level=0 中分组? 我没有在文档中找到任何好的东西。 如果您有提示,我将不胜感激! ...
知道如何在 PySpark 中写这个吗? 我有两个正在尝试合并的 PySpark 数据帧。 但是,我想根据 2 个重复的列值更新 1 个值。 PyDf1: PyDf2: 所需的 output: ...
我想在 Pyspark 中使用 pandas_udf 进行某些列的转换和计算。 而且似乎 pandas udf 不能完全像普通 UDF 那样写。 示例 function 如下所示: 基本上,从火花 dataframe 中获取两列值并返回我打算与withColumn一起使用的值: 但这不起作用。 我应 ...
我想在 Spark dataframe 上的 Pandas 上运行 udf。 我认为这应该很容易,但很难弄清楚。 例如,考虑我的 psdf (Pandas Spark DataFrame) 我有一个简单的 function, 我希望低于 psdf, function 非常动态,我在这里只展示了一 ...
我最初使用下面的代码来处理标准的 pandas df。 一旦数据增长,切换到 pyspark pandas df。 我一直无法使这个 groupby 在 pyspark pandas df 上工作。 我也尝试使用 spark 函数在 spark df 上复制,但我的知识有限,所以我没有运气。 任何 ...
背景:我在databricks jupyter笔记本中使用pyspark.pandas。 我测试过的内容:如果出现以下情况,我不会收到任何错误: 我在 300 行数据上运行我的代码。 我只是将数据集复制了 2 次(pd.concat 为 600 行)。 如果出现以下情况,我会收到错误: 我只是将数 ...
嗨,我正在尝试在不使用spark_df.collect()的情况下迭代 pyspark 数据帧,并且我正在尝试 foreach 和 map 方法,还有其他方法可以迭代吗? df.foreach(lambda x: print(x))和 ...
这是我写的,但我实际上希望 function 获取此列表并将每个 df 转换为 pandas df 然后将其转换为 csv 列表中的特定目录并将其保存到特定目录中名字的顺序。 有没有办法写出这样的 function? PS D:/data 只是一个虚构的路径,用于解释。 ...
我想基于一列创建一行。 例如 - 我有以下数据框。 我想将其转换为以下 删除替代名称列并根据新的lookup_name 条目复制位置和库存的位置。 ...
假设这些是我的数据: 问题是有时,有多个 Product_Number 而它应该是唯一的。 我要做的是不止一次地从 dataframe 中的那些中取出条件是新的而不触及 rest 的那些。 这得到了结果: 我试图做的是首先查看我有多少不同的产品编号: 然后找出出现次数最多的产品编号,并将它们放在一 ...