标签[pyspark-pandas] - 堆栈内存溢出

使用 PySpark 根据年龄生成子样本 - Generate subsample based on age using PySpark

我想根据年龄收集样本，条件是失败状态。我对 3 天前的序列号感兴趣。但是，我不需要少于 3 天的健康序列号，但我想包括所有少于 3 天或刚好 3 天的失败序列号。例如，C 在 1 月 3 日失败，因此我需要在我的新样本中包括序列号 C 的 1 月 1 日和 2 日。系列 D 在 1 月 4 ...

如何在PySpark中创建这个function？ - How to create this function in PySpark?

我有一个大型数据框，包含 400 多列和 14000 多条记录，我需要对其进行清理。我已经定义了一个 python 代码来执行此操作，但是由于我的数据集的大小，我需要使用 PySpark 来清理它。但是，我对 PySpark 非常陌生，不知道如何在 PySpark 中创建 python fun ...

pandas_udf 与 pd.Series 和其他 object 为 arguments - pandas_udf with pd.Series and other object as arguments

我在创建 Pandas UDF 时遇到问题，该 UDF 基于底层 Spark Dataframe 同一行中的值对 pd 系列执行计算。但是，Spark API 上的 Pandas 似乎不支持最直接的解决方案：一个非常简单的例子如下在 udf 定义行抛出以下异常我是否以错误的方式解决了这个问 ...

如何用下一行同一列中的值替换 pyspark df 中的任何 null - How to replace any null in pyspark df with value from the below row, same column

假设我有一个 pyspark DF：| Column A | Column B | | -------- | -------- | | val1 | val1B | | null | val2B | | val2 | null | | val3 ...

如何用此文本中命名的列中包含的值替换列中的文本 - How to replace text in column by the value contained in the columns named in this text

在 pyspark 中，我试图用列中存在的值替换列中的多个文本值，这些值存在于计算列（公式）中。所以要清楚，这是一个例子：输入： Output 需要：在计算列中，默认值为公式。它可以像上面提供的一样简单，也可以类似于“2*(param_8-param_4)/param_2-(param_3 ...

根据索引删除 PySpark 中的行 - Dropping rows in PySpark based on indexes

我正在使用看起来与此类似的 PySpark Pandas DataFrame：总数据集相当大（大约 55 行），所以这个例子只是部分的。我试图根据两个参数删除行：该 col2 是 Windows 服务器的路径并且具有文件夹“a” col3 等于不等于 3 最终结果应该是这样的：注意：请注意 ...

如何减少大数据 PySpark 脚本的运行时间？ - How do I reduce the run-time for Big Data PySpark scripts?

我目前正在 Databricks 中开展一个项目，单个表中大约有 6 GiB 的数据，因此您可以想象，在这样的表上运行时是非常昂贵的。我会称自己为经验丰富的编码员，但对于大数据我还是新鲜的。在处理较小的数据集时，我会经常测试我的部分代码以查看它是否正常运行，例如：然而，对于这样的大数据，过滤 ...

如果数据匹配并插入新数据，则根据另一个数据框删除行 - Delete rows on the basis of another data frame if the data matched and insert new data

我有两个文件，一个是 file1.csv，另一个是 file2.csv 我已经将 file1 数据放在一个 dataframe 中，当第二个文件 file2.csv 到达时，我必须以这样的方式编写代码，如果第二个文件数据匹配在基于年份和月份列的第一个文件数据中，然后从文件 1 dataframe 中 ...

Spark 上的 Pandas API - 两个日期列之间的差异 - Pandas API on Spark - Difference between two date columns

我想要天数中两个日期列之间的差异。在 pandas dataframe 两个“datetime64”类型列中的差异返回天数但在 pyspark.pandas dataframe 中，差异以“int”类型返回。import pandas as pd import pyspark.pandas as ...

Unity 目录不支持 AttachDistributedSequence - AttachDistributedSequence is not supported in Unity Catalog

我正在尝试使用 pyspark.pandas.read_table 将 Databricks 上的表读取到pyspark.pandas.read_table并收到以下错误：该表是根据 Databricks 快速入门笔记本创建的：我正在尝试阅读表格并得到上面的错误。将表格读入spark.sq ...

索引与 groupby PySpark - Index with groupby PySpark

我正在尝试将以下 pandas 代码转换为 PySpark。但我在这两点上遇到了麻烦：但是Spark DataFrame中有索引吗？我怎样才能像这样在 level=0 中分组？我没有在文档中找到任何好的东西。如果您有提示，我将不胜感激！ ...

当 PySpark 中的 2 个不同表中的 2 个其他值匹配时更新特定值 - Update a specific value when 2 other values matches from 2 different tables in PySpark

知道如何在 PySpark 中写这个吗？我有两个正在尝试合并的 PySpark 数据帧。但是，我想根据 2 个重复的列值更新 1 个值。 PyDf1： PyDf2：所需的 output： ...

Pandas UDF，带有字典查找和条件 - Pandas UDF with dictionary lookup and conditionals

我想在 Pyspark 中使用 pandas_udf 进行某些列的转换和计算。而且似乎 pandas udf 不能完全像普通 UDF 那样写。示例 function 如下所示：基本上，从火花 dataframe 中获取两列值并返回我打算与withColumn一起使用的值：但这不起作用。我应 ...

如何在 Spark DataFrame 上将基于 function 的列添加到 Pandas？ - How to add a column based on a function to Pandas on Spark DataFrame?

我想在 Spark dataframe 上的 Pandas 上运行 udf。我认为这应该很容易，但很难弄清楚。例如，考虑我的 psdf (Pandas Spark DataFrame) 我有一个简单的 function，我希望低于 psdf， function 非常动态，我在这里只展示了一 ...

有没有办法通过 lambda function 在 pyspark Z3A43B4F883225D94022CEFA9Z - Is there a way to group by lambda function in pyspark pandas

我最初使用下面的代码来处理标准的 pandas df。一旦数据增长，切换到 pyspark pandas df。我一直无法使这个 groupby 在 pyspark pandas df 上工作。我也尝试使用 spark 函数在 spark df 上复制，但我的知识有限，所以我没有运气。任何 ...

PicklingError：无法序列化 object（仅适用于大型数据集） - PicklingError: Could not serialize object (happens only for large datasets)

背景：我在databricks jupyter笔记本中使用pyspark.pandas。我测试过的内容：如果出现以下情况，我不会收到任何错误：我在 300 行数据上运行我的代码。我只是将数据集复制了 2 次（pd.concat 为 600 行）。如果出现以下情况，我会收到错误：我只是将数 ...

嗨，我正在尝试在不使用 spark_df.collect() 的情况下迭代 pyspark 数据帧 - HI I am trying to iterate over pyspark data frame without using spark_df.collect()

嗨，我正在尝试在不使用spark_df.collect()的情况下迭代 pyspark 数据帧，并且我正在尝试 foreach 和 map 方法，还有其他方法可以迭代吗？ df.foreach(lambda x: print(x))和 ...

Function 获取火花列表 dataframe 并转换为 pandas 然后 Z628CB5675FF524F3EZ19BAA7FAA - Function to take a list of spark dataframe and convert to pandas then csv

这是我写的，但我实际上希望 function 获取此列表并将每个 df 转换为 pandas df 然后将其转换为 csv 列表中的特定目录并将其保存到特定目录中名字的顺序。有没有办法写出这样的 function？ PS D:/data 只是一个虚构的路径，用于解释。 ...

基于列创建行 - Create Rows based on Column

我想基于一列创建一行。例如 - 我有以下数据框。我想将其转换为以下删除替代名称列并根据新的lookup_name 条目复制位置和库存的位置。 ...

如何过滤掉pyspark中条件多的行？ - How to filter out rows with lots of conditions in pyspark?

假设这些是我的数据：问题是有时，有多个 Product_Number 而它应该是唯一的。我要做的是不止一次地从 dataframe 中的那些中取出条件是新的而不触及 rest 的那些。这得到了结果：我试图做的是首先查看我有多少不同的产品编号：然后找出出现次数最多的产品编号，并将它们放在一 ...